LLM-Compressor - Friki Work - Donde las ideas extrañas se vuelven código

LLM-Compressor

Cuantización de Modelos de Lenguaje Grandes con AWQ

La cuantización de modelos de lenguaje grandes (LLMs) es crucial para desplegarlos en hardware con recursos limitados. Un modelo LLM sin cuantizar, como Qwen3:30b, puede ocupar cerca de 60GB, lo que impide su ejecución en una sola GPU de consumo (por ejemplo, una 4090/5090). La cuantización, especialmante a 4 bits (q4), permite la inferencia en ...

Publicado el 6-22 01:56

Friki Work

Cuantización de Modelos de Lenguaje Grandes con AWQ

Etiquetas populares