Desglose del formato GGUF y convenciones de nombres para modelos BitNet cuantizados

El modelo BitNet b1.58-2B-4T-GGUF representa un avance en la eficiencia de los grandes modelos de lenguaje (LLM). Su arquitectura emplea cuantización nativa de 1.58 bits, donde los pesos del modelo solo pueden tomar los valores {-1, 0, +1}. Esto se traduce en un uso de memoria excepcionalmente bajo (alrededor de 0.4GB) y una latencia de inferen ...

Publicado el 7-3 02:32