Qwen3: modelo híbrido de código abierto que redefine el estado del arte

Alibaba Cloud ha lanzado Qwen3, una familia de modelos de razonamiento híbrido que combina eficiencia y precisión. Con arquitectura Mixture of Experts (MoE), la variante Qwen3-235B-A22B activa solo 22 mil millones de parámetros, superando a modelos densos mucho más grandes y reduciendo el consumo de memoria a un tercio. Este modelo ha sido entrenado con 36 billones de tokens, soporta 119 idiomas y alcanza resultados comparables a GPT‑o1 en benchmarks como GPQA, AIME24/25 y LiveCodeBench.

Modo pensar y modo no pensar

Qwen3 incorpora dos modos de inferencia intercambiables mediante las instrucciones /think o /no_think:

Modo pensar: el modelo genera un bloque de razonamiento paso a paso antes de la respuesta final. Ideal para tareas complejas como matemáticas o generación de código.
Modo no pensar: responde de forma directa y rápida, adecuado para chats o preguntas sencillas.

Ejemplo: al preguntar cuántas letras "r" tiene la palabra "strawberries":

Modo pensar: piensa "s‑t‑r‑a‑w‑b‑e‑r‑r‑i‑e‑s", cuenta las ‘r’ → 3.
Modo no pensar: "3".

Integración con frameworks populares

Qwen3 es compatible con Hugging Face Transformres, vLLM, SGLang, Ollama y llama.cpp. A continuación se muestra un ejemplo de uso con Transformers (modo pensar habilitado):

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "Qwen/Qwen3-30B-A3B"
tok = AutoTokenizer.from_pretrained(model_id)
modelo = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto"
)

consulta = "Explica brevemente qué es un modelo de lenguaje grande."
mensajes = [{"role": "user", "content": consulta}]
texto = tok.apply_chat_template(
    mensajes,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True
)
entradas = tok([texto], return_tensors="pt").to(modelo.device)
ids_generados = modelo.generate(**entradas, max_new_tokens=32768)
salida = tok.decode(
    ids_generados[0][len(entradas.input_ids[0]):],
    skip_special_tokens=True
)
print(salida)

Capacidades como agente

Usando el framework Qwen-Agent, se pueden integrar herramientas como intérprete de código o navegación web. Ejemplo:

from qwen_agent.agents import Assistant

config_llm = {
    "model": "Qwen3-30B-A3B",
    "model_server": "http://localhost:8000/v1",
    "api_key": "EMPTY"
}
herramientas = [
    "code_interpreter",
    {"mcpServers": {"fetch": {"command": "uvx", "args": ["mcp-server-fetch"]}}}
]
asistente = Assistant(llm=config_llm, function_list=herramientas)

mensajes = [{"role": "user", "content": "https://qwenlm.github.io/blog/ Resume las novedades de Qwen"}]
for respuesta in asistente.run(messages=mensajes):
    print(respuesta)

Licencia y disponibilidad

Todos los modelos de la serie Qwen3 (excepto los de mayor escala) se distribuyen bajo licencia Apache 2.0. Están disponibles en Hugging Face y ModelScope, y se pueden desplegar localmente con Ollama o en la nube mediante la plataforma Alibaba Cloud Bailian.

Etiquetas: Qwen3 MoE RazonamientoHíbrido HuggingFace CódigoAbierto

Publicado el 6-25 18:31

Friki Work

Qwen3: modelo híbrido de código abierto que redefine el estado del arte

Modo pensar y modo no pensar

Integración con frameworks populares

Capacidades como agente

Licencia y disponibilidad

Etiquetas populares