Despliegue local de modelos grandes en Windows 11 con Langchain-Chatchat

Langchain-Chatchat (anteriormente Langchain-ChatGLM) es un proyecto open‑source que integra modelos de lenguaje grandes como ChatGLM con frameworks de aplicaciones como Langchain. Permite implementar un sistema RAG (Retrieval‑Augmented Generation) de forma offline, funcionando como base de conocimiento local.

Entes de empezar, verifica la versión de Python (se recomienda 3.10):

python --version

Clona el repositorio e instala las dependencias:

git clone https://github.com/chatchat-space/Langchain-Chatchat.git
cd Langchain-Chatchat
pip install -r requirements.txt

Si solo necesitas la API o la WebUI, puedes instalar de forma selectiva:

pip install -r requirements_api.txt
pip install -r requirements_webui.txt

A continuación, descarga los modelos. Para ello, instala Git LFS:

git lfs install

Los modelos suelen obtenerse de Hugging Face, pero si tienes problemas de acceso, usa el mirror:

git clone https://hf-mirror.com/THUDM/chatglm2-6b
git clone https://hf-mirror.com/moka-ai/m3e-base

Copia los archivos de configuración por defecto:

python copy_config_example.py

Inciializa la base de datos de conocimientos:

python init_database.py --recreate-vs

Arranca el sistema:

python startup.py -a

Si todo funciona, verás la configuración actual en la terminal. Abre la interfaz web en el navegador y la API estará disponible. Como prueba, puedes cargar un documento (por ejemplo, "Agua Margen" o "水浒传") y hacer preguntas.

Nota sobre el rendimiento: Usar solo CPU es muy lento. Para aprovechar la GPU, verifica si PyTorch soporta CUDA:

python
import torch
print(torch.__version__)
print(torch.cuda.is_available())

Si devuelve False, necesitas enstalar CUDA Toolkit (versiones 11.8 o 12.1) y luego reinstalar PyTorch con soporte CUDA. Descarga el .whl correspondiente desde PyTorch wheel e instálalo localmente:

pip install ruta/al/archivo/torch-2.1.0+cu121-cp310-cp310-win_amd64.whl

Vuelve a comprobar torch.cuda.is_available(). Si ahora es True, la GPU estará activa.

Problema de memoria VRAM: Con 8 GB de VRAM, el modelo chatglm2-6b puede fallar por falta de memoria. Usa la versión cuantizada:

git clone https://hf-mirror.com/THUDM/chatglm2-6b-int4

Luego edita model_config.py y cambia el nombre del modelo LLM a chatglm2-6b-int4 (asegurándote de que la ruta en MODEL_PATH apunte al directorio correcto). Reinicia con python startup.py -a y verás que ahora se usa CUDA. La velocidad mejora notablemente, aunque el modelo cuantizado puede perder algo de precisión.

Etiquetas: Langchain-Chatchat Windows 11 RAG ChatGLM GPU

Publicado el 6-29 08:28