El despliegue de modelos de lenguaje de gran escala (LLM) en entornos locales permite un control total sobre la privacidad y los costos. Para equipos con recursos moderados, como aquellos equipados con una GPU NVIDIA RTX 3060 de 6GB VRAM, el modelo Qwen 3.5:4b representa un equilibrio óptimo entre rendimiento y consumo de recursos.
Justificación técnica del modelo 4B
La variante de 4 billones de parámetros en su versión cuantizada de 4 bits requiere aproximadamente entre 2.5GB y 3GB de memoria de video (VRAM). En una tarjeta de 6GB, esto permite asignar el espacio restante (más de 3GB) para gestionar una ventana de contexto extendida o procesar entradas multimodales complejas sin saturar la memoria del sistema.
Instalación del entorno de ejecución
- Obtención de Ollama: Acceda al sitio oficial de Ollama, descargue el instalador para Windows y proceda con la configuración estándar.
- Validación de binarios: Abra una terminal (PowerShell o CMD) y ejecute el siguiente comando para verificar que el servicio esté activo: ```
ollama --version
Despliegue inicial del modelo
Para descargar y ejecutar el modelo base por primera vez, utilice el comando de ejecución directa. El sistema descargará aproximadamente 2.5GB de datos:
ollama run qwen3.5:4b
Una vez completada la descarga, la terminal haiblitará un prompt interactivo listo para procesar consultas.
Personalización avanzada mediante Modelfile
Para maximizar la eficiencia del modelo y adaptarlo a tareas específicas (como programación o análisis de datos), es recomendable crear una instancia personalizada utilizando un archivo de configuración llamado Modelfile.
Cree un archivo de texto sin extensión denominado Modelfile y defina los siguientes parámetros técnicos:
# Definición del modelo base
FROM qwen3.5:4b
# Configuración de comportamiento del sistema
SYSTEM """
Eres un asistente técnico avanzado especializado en ingeniería de software.
Tus respuestas deben ser rigurosas, con un tono profesional y estructuradas en Markdown.
Si no dispones de información verificable, indica tus limitaciones.
"""
# Parámetros de inferencia y gestión de VRAM
# Ampliamos el contexto a 16k para documentos extensos
PARAMETER num_ctx 16384
# Control de creatividad (0.1 - 1.0)
PARAMETER temperature 0.6
# Filtrado de núcleo (Nucleus sampling)
PARAMETER top_p 0.85
# Penalización de repetición para mejorar la coherencia
PARAMETER repeat_penalty 1.15
# Límite de tokens por respuesta
PARAMETER num_predict 2048
Arquitectura del Modelfile
La configuración se divide en tres pilares fundamentales:
- Origen (FROM): Especifica la imagen base del modelo. Puede ser un nombre del registro de Ollama o una ruta local a un archivo GGUF.
- Parámetros (PARAMETER): Ajustan el comportamienot del motor de inferencia.
num_ctxes crítico; un valor demasiado alto en GPUs con poca VRAM puede causar lentitud al mover datos a la memoria del sistema (RAM). - Plantilla y Sistema (TEMPLATE/SYSTEM): Define el "role-play" y el formato en el que el modelo interpreta los prompts del usuario.
Compilación y ejecución de la instancia personalizada
Desde la carpeta donde se encuentra el archivo Modelfile, ejecute el comando de creación para generar una nueva imagen del modelo con la configuración aplicada:
ollama create qwen-expert-v1 -f Modelfile
Si el proceso finaliza con éxito, podrá iniciar su asistente personalizado en cualquier momento mediante:
ollama run qwen-expert-v1
Para usuarios que prefieran interfaces gráficas, las versiones recientes de Ollama permiten la integración directa con clientes locales o aplicaciones web que consumen su API REST en el puerto 11434.