Cuantización de Modelos de Lenguaje Grandes con AWQ
La cuantización de modelos de lenguaje grandes (LLMs) es crucial para desplegarlos en hardware con recursos limitados. Un modelo LLM sin cuantizar, como Qwen3:30b, puede ocupar cerca de 60GB, lo que impide su ejecución en una sola GPU de consumo (por ejemplo, una 4090/5090). La cuantización, especialmante a 4 bits (q4), permite la inferencia en ...
Publicado el 6-22 01:56