Optimización y despliegue local de Qwen 3.5:4b con Ollama en hardware de gama media

El despliegue de modelos de lenguaje de gran escala (LLM) en entornos locales permite un control total sobre la privacidad y los costos. Para equipos con recursos moderados, como aquellos equipados con una GPU NVIDIA RTX 3060 de 6GB VRAM, el modelo Qwen 3.5:4b representa un equilibrio óptimo entre rendimiento y consumo de recursos.

Justificación técnica del modelo 4B

La variante de 4 billones de parámetros en su versión cuantizada de 4 bits requiere aproximadamente entre 2.5GB y 3GB de memoria de video (VRAM). En una tarjeta de 6GB, esto permite asignar el espacio restante (más de 3GB) para gestionar una ventana de contexto extendida o procesar entradas multimodales complejas sin saturar la memoria del sistema.

Instalación del entorno de ejecución

  1. Obtención de Ollama: Acceda al sitio oficial de Ollama, descargue el instalador para Windows y proceda con la configuración estándar.
  2. Validación de binarios: Abra una terminal (PowerShell o CMD) y ejecute el siguiente comando para verificar que el servicio esté activo: ``` ollama --version
    
    

Despliegue inicial del modelo

Para descargar y ejecutar el modelo base por primera vez, utilice el comando de ejecución directa. El sistema descargará aproximadamente 2.5GB de datos:

ollama run qwen3.5:4b

Una vez completada la descarga, la terminal haiblitará un prompt interactivo listo para procesar consultas.

Personalización avanzada mediante Modelfile

Para maximizar la eficiencia del modelo y adaptarlo a tareas específicas (como programación o análisis de datos), es recomendable crear una instancia personalizada utilizando un archivo de configuración llamado Modelfile.

Cree un archivo de texto sin extensión denominado Modelfile y defina los siguientes parámetros técnicos:

# Definición del modelo base
FROM qwen3.5:4b

# Configuración de comportamiento del sistema
SYSTEM """
Eres un asistente técnico avanzado especializado en ingeniería de software.
Tus respuestas deben ser rigurosas, con un tono profesional y estructuradas en Markdown.
Si no dispones de información verificable, indica tus limitaciones.
"""

# Parámetros de inferencia y gestión de VRAM
# Ampliamos el contexto a 16k para documentos extensos
PARAMETER num_ctx 16384

# Control de creatividad (0.1 - 1.0)
PARAMETER temperature 0.6

# Filtrado de núcleo (Nucleus sampling)
PARAMETER top_p 0.85

# Penalización de repetición para mejorar la coherencia
PARAMETER repeat_penalty 1.15

# Límite de tokens por respuesta
PARAMETER num_predict 2048

Arquitectura del Modelfile

La configuración se divide en tres pilares fundamentales:

  • Origen (FROM): Especifica la imagen base del modelo. Puede ser un nombre del registro de Ollama o una ruta local a un archivo GGUF.
  • Parámetros (PARAMETER): Ajustan el comportamienot del motor de inferencia. num_ctx es crítico; un valor demasiado alto en GPUs con poca VRAM puede causar lentitud al mover datos a la memoria del sistema (RAM).
  • Plantilla y Sistema (TEMPLATE/SYSTEM): Define el "role-play" y el formato en el que el modelo interpreta los prompts del usuario.

Compilación y ejecución de la instancia personalizada

Desde la carpeta donde se encuentra el archivo Modelfile, ejecute el comando de creación para generar una nueva imagen del modelo con la configuración aplicada:

ollama create qwen-expert-v1 -f Modelfile

Si el proceso finaliza con éxito, podrá iniciar su asistente personalizado en cualquier momento mediante:

ollama run qwen-expert-v1

Para usuarios que prefieran interfaces gráficas, las versiones recientes de Ollama permiten la integración directa con clientes locales o aplicaciones web que consumen su API REST en el puerto 11434.

Etiquetas: ollama Qwen LLM inferencia GPU

Publicado el 7-3 07:04