Despliegue de internlm2-chat-1.8b con Ollama: Solución para Descargas Lentas

Este tutorial guía el proceso para ejecutar el modelo de lenguaje internlm2-chat-1.8b en un ordenador personnel utilizando Ollama. Se abordará específicamente el problema común de las velocidades de descarga lentas y se proporcionarán soluciones.

1. Introducción a las Herramientas

Ollama simplifica la ejecución de modelos de lenguaje de código abierto en local. Ofrece instalación sencilla, manejo automático de dependencias y una amplia biblioteca de modelos. Elimina la necesidad de configurar manualmente entornos Python, PyTorch o CUDA.

internlm2-chat-1.8b es un modelo conversacional desarrollado por el Laboratorio de Inteligencia Artificial de Shanghái. Sus características principales incluyen:

  • Eficiencia: Con 1.8 mil millones de parámetros, es adecuado para GPUs con 8GB de VRAM o menos.
  • Contexto Largo: Soporta hasta 200,000 caracteres de contexto.
  • Optimización para Chino: Ofrece un rendimiento superior en tareas de comprensión y generación en chino.
  • Capacidades Completas: Incluye seguimiento de instrucciones y conversación de múltiples turnos.

2. Instalación de Ollama

Para Windows y macOS:

Descargue el instalador oficial desde el sitio web de Ollama y ejecute el archivo (.exe o .dmg). Siga las instrucciones del asistente de instalación.

Para Linux:

Ejecute el siguiente comando en una terminal:

curl -fsSL https://ollama.com/install.sh | sh

Para verificar la instalación, use:

ollama --version

La aparición de un número de versión confirma que Ollama está instalado correctamente.

3. Descarga y Ejecución del Modelo

Comando Básico (puede ser lento):

ollama run internlm2:1.8b

Este comando inicia la descarga desde el repositorio por defecto, que puede presentar velocidades lentas.

Solución para Descargas Lentas: Usar un Mirror (Espejo)

Configure la variable de entorno OLLAMA_HOST para apuntar a un mirror regional, acelerando significativamente la descarga.

Opción 1: Configuración Temporal (en la terminal)

Antes de ejecutar el comando de Ollama, establezca la variable:

# En macOS/Linux
export OLLAMA_HOST="https://ollama.operatorx.cn"
ollama run internlm2:1.8b

# En Windows (PowerShell)
$env:OLLAMA_HOST="https://ollama.operatorx.cn"
ollama run internlm2:1.8b

Opción 2: Configuración Permanente

  • Linux/macOS: Añada la línea export OLLAMA_HOST="https://ollama.operatorx.cn" al archivo de configuración de su shell (ej. ~/.bashrc, ~/.zshrc). Luego, ejecute source ~/.bashrc.
  • Windows: Use el menú "Editar variables de entorno del sistema" para añadir una nueva variable de sistema con nombre OLLAMA_HOST y el valor de la URL del mirror. Reinicie la terminal después del cambio.

Con el mirror configurado, ejecute nuevamente ollama run internlm2:1.8b. La descarga del modelo (aproximadamente 3-4GB) debería completarse en pocos minutos.

4. Interacción con el Modelo

Una vez cargado el modelo, aparece un indicador >>>. Puede iniciar una conversación:

>>> Hola, preséntate brevemente.
>>> Escribe un poema corto sobre la inteligencia artificial.

Para salir del modo interactivo, presione Ctrl+D (Linux/macOS) o Ctrl+Z seguido de Enter (Windows).

5. Gestión de Modelos con Ollama

Ollama proporciona comandos sencillos para administrar sus modelos locales:

  • Listar modelos: ollama list
  • Volver a ejecutar un modelo: ollama run internlm2:1.8b (se inicia instantáneamente si ya está descargado).
  • Eliminar un modelo: ollama rm internlm2:1.8b (para liberar espacio en disco).
  • Ejecutar otro modelo: ollama run qwen2.5:0.5b

6. Solución de Problemas Comunes

  • Comando "ollama" no encontrado: Verifique que la instalación se completó e intente con una terminal nueva.
  • Velocidad de descarga lenta incluso con mirror: Confirme que la variable OLLAMA_HOST está correctamente establecida (use echo $OLLAMA_HOST en Linux/macOS o echo %OLLAMA_HOST% en Windows). Intente con un mirror alternativo si está disponible.
  • Error de memoria insuficiente (VRAM): Cierre otras aplicaciones que consuman GPU. Ollama intentará usar la CPU si la VRAM es insuficiente, pero el rendimiento será significativamente más lento.
  • Respuestas lentas del modelo: Esto es normal cuando el modelo se ejecuta en CPU. La generación de respuestas extensas puede tardar decenas de segundos.

Etiquetas: ollama internlm2-chat-1.8b despliegue local espejo de descarga modelo de lenguaje

Publicado el 6-15 19:58