Este tutorial guía el proceso para ejecutar el modelo de lenguaje internlm2-chat-1.8b en un ordenador personnel utilizando Ollama. Se abordará específicamente el problema común de las velocidades de descarga lentas y se proporcionarán soluciones.
1. Introducción a las Herramientas
Ollama simplifica la ejecución de modelos de lenguaje de código abierto en local. Ofrece instalación sencilla, manejo automático de dependencias y una amplia biblioteca de modelos. Elimina la necesidad de configurar manualmente entornos Python, PyTorch o CUDA.
internlm2-chat-1.8b es un modelo conversacional desarrollado por el Laboratorio de Inteligencia Artificial de Shanghái. Sus características principales incluyen:
- Eficiencia: Con 1.8 mil millones de parámetros, es adecuado para GPUs con 8GB de VRAM o menos.
- Contexto Largo: Soporta hasta 200,000 caracteres de contexto.
- Optimización para Chino: Ofrece un rendimiento superior en tareas de comprensión y generación en chino.
- Capacidades Completas: Incluye seguimiento de instrucciones y conversación de múltiples turnos.
2. Instalación de Ollama
Para Windows y macOS:
Descargue el instalador oficial desde el sitio web de Ollama y ejecute el archivo (.exe o .dmg). Siga las instrucciones del asistente de instalación.
Para Linux:
Ejecute el siguiente comando en una terminal:
curl -fsSL https://ollama.com/install.sh | sh
Para verificar la instalación, use:
ollama --version
La aparición de un número de versión confirma que Ollama está instalado correctamente.
3. Descarga y Ejecución del Modelo
Comando Básico (puede ser lento):
ollama run internlm2:1.8b
Este comando inicia la descarga desde el repositorio por defecto, que puede presentar velocidades lentas.
Solución para Descargas Lentas: Usar un Mirror (Espejo)
Configure la variable de entorno OLLAMA_HOST para apuntar a un mirror regional, acelerando significativamente la descarga.
Opción 1: Configuración Temporal (en la terminal)
Antes de ejecutar el comando de Ollama, establezca la variable:
# En macOS/Linux
export OLLAMA_HOST="https://ollama.operatorx.cn"
ollama run internlm2:1.8b
# En Windows (PowerShell)
$env:OLLAMA_HOST="https://ollama.operatorx.cn"
ollama run internlm2:1.8b
Opción 2: Configuración Permanente
- Linux/macOS: Añada la línea
export OLLAMA_HOST="https://ollama.operatorx.cn"al archivo de configuración de su shell (ej.~/.bashrc,~/.zshrc). Luego, ejecutesource ~/.bashrc. - Windows: Use el menú "Editar variables de entorno del sistema" para añadir una nueva variable de sistema con nombre
OLLAMA_HOSTy el valor de la URL del mirror. Reinicie la terminal después del cambio.
Con el mirror configurado, ejecute nuevamente ollama run internlm2:1.8b. La descarga del modelo (aproximadamente 3-4GB) debería completarse en pocos minutos.
4. Interacción con el Modelo
Una vez cargado el modelo, aparece un indicador >>>. Puede iniciar una conversación:
>>> Hola, preséntate brevemente.
>>> Escribe un poema corto sobre la inteligencia artificial.
Para salir del modo interactivo, presione Ctrl+D (Linux/macOS) o Ctrl+Z seguido de Enter (Windows).
5. Gestión de Modelos con Ollama
Ollama proporciona comandos sencillos para administrar sus modelos locales:
- Listar modelos:
ollama list - Volver a ejecutar un modelo:
ollama run internlm2:1.8b(se inicia instantáneamente si ya está descargado). - Eliminar un modelo:
ollama rm internlm2:1.8b(para liberar espacio en disco). - Ejecutar otro modelo:
ollama run qwen2.5:0.5b
6. Solución de Problemas Comunes
- Comando "ollama" no encontrado: Verifique que la instalación se completó e intente con una terminal nueva.
- Velocidad de descarga lenta incluso con mirror: Confirme que la variable
OLLAMA_HOSTestá correctamente establecida (useecho $OLLAMA_HOSTen Linux/macOS oecho %OLLAMA_HOST%en Windows). Intente con un mirror alternativo si está disponible. - Error de memoria insuficiente (VRAM): Cierre otras aplicaciones que consuman GPU. Ollama intentará usar la CPU si la VRAM es insuficiente, pero el rendimiento será significativamente más lento.
- Respuestas lentas del modelo: Esto es normal cuando el modelo se ejecuta en CPU. La generación de respuestas extensas puede tardar decenas de segundos.