Despliegue local de Ollama: Guía técnica para implementación rápida

Comprobación de requisitos del sistema

Antes de iniciar, confirma que tu equipo cumpla con los parámetros esenciales:

  • Sistema operativo: Windows 10/11 o macOS 10.15+ (en Linux se requieren pasos adicionales).
  • Memoria RAM: Mínimo 8 GB; se recomienda 16 GB o más para modelos grandes.
  • Espacio en disco: Disponibiliza al menos 20 GB para la instalación base y los modelos.

Para verificar en Windows, ejecuta winver con Win+R, y revisa las propiedades de "Este PC" para RAM y almacenamiento. En macOS, accede a "Acerca de este Mac" desde el menú Apple.

Preparación de dependencias

Ollama depende de varias herramientas externas:

  • Python 3.8 o superior
  • Git para control de versiones
  • Docker (opcional, pero útil para contenedores)

Sigue esta secuencia de instalación para evitar conflictos:

  1. Instala Python desde python.org, marcando la opción "Add to PATH" durante el proceso.
  2. Descarga e instala Git desde git-scm.com, aceptando la configuración predeterminada.
  3. Opcionalmente, instala Docker Desktop desde docker.com y reinicia el sistema si es necesario.

Valida la instalación abriendo una terminal (CMD/PowerShell en Windows, Terminal en macOS) y ejecutando:

python --version
git --version
docker --version  # Solo si se instaló Docker

Si aparecen errores, verifica la variable PATH del sistema para cada herramienta.

Instalación de Ollama y selección de modelos

Configura un espacio de trabajo dedicado para Ollama:

mkdir entorno-ollama
cd entorno-ollama

Ejecuta el script de instalación oficial proporcionado por el proyecto Ollama. Una vez completado, lista los modelos disponibles con:

ollama catalogo

Para principiantes, se sugieren estos modelos iniciales:

  • llama2: Modelo base para explorar funcionalidades esenciales.
  • mistral: Versión de 7B parámetros, equilibrada en rendimiento y consumo de recursos.
  • codellama: Orientado a generación de código.

Descarga un modelo específico, por ejemplo:

ollama obtener llama2

La descarga puede tardar según tu conexión. Si se interrumpe, reanuda el comando; Ollama soporta reanudación. Gestiona el espacio con ollama catalogo para eliminar modelos no usados.

Ejecución del primer modelo local

Inicia una sesión interactiva con el modelo descargado:

ollama iniciar llama2

Prueba enviando un mensaje como "Hola". Usa /ayuda para ver comandos disponibles, Ctrl+D para salir, o redirige la salida a un archivo con > para guardar registros.

Para mejorar el rendimiento en hardware limitado:

  • Opta por modelos más pequeños como tinyllama.
  • Activa la aceleración GPU con el parámetro --gpu-sinc 1 si dispones de NVIDIA.
  • Ajusta la variable de entorno OLLAMA_MEM_MAX para limitar el uso de memoria.

Uso avanzado y solución de problemas

Una vez familiarizado, explora estas capacidades adicionales:

  • Ejecuta múltiples modelos simultáneamente en terminales separadas.
  • Personaliza configuraciones editando archivos en ~/.ollama/configuraciones.
  • Expón Ollama como servicio API con el flag --servidor y un puerto específico.

Para diagnosticar errores, sigue este enfoque:

  1. Examina las primeras líneas del mensaje de error para pistas clave.
  2. Revisa los registros con ollama bitacora.
  3. Busca incidencias similares en el repositorio oficial de Ollama en GitHub.

Etiquetas: ollama LLM despliegue-local Python Docker

Publicado el 6-6 02:03