- Arquitectura MoE eficiente: 28B totales y ~3B activos por token con ViT y pérdidas específicas para equilibrio multimodal.
- Razonamiento multimodal avanzado: RL (GSPO, IcePop), grounding accesible y “Thinking with Images” para detalle y long‑tail.
- Despliegue flexible: Baidu, APIs compatibles, ERNIEKit, vLLM y cuantización hasta 2 bits con requisitos de VRAM variables.
La etiqueta “Thinking” ha aparecido de forma discreta en la familia ERNIE-4.5-VL de Baidu y ha levantado cierta polvareda. Entre comentarios de que el lanzamiento fue casi en secreto, un gráfico minúsculo comparándolo con competidores como Gemini 2.5 Pro y un hipotético GPT‑5 “alto”, y la promesa de un modo de “pensar con imágenes” poco explicado, mucha gente se pregunta si este modelo es de verdad tan bueno como sugiere el marketing. Lo cierto es que las versiones anteriores de ERNIE ya eran solventes, así que merece la pena mirar bajo el capó con calma y separar ruido de realidad.
En pocas palabras, ERNIE‑4.5‑VL‑28B‑A3B‑Thinking es un modelo multimodal visión‑lenguaje con arquitectura Mixture of Experts (MoE) que activa solo ~3B parámetros por token de un total de 28B. Esto permite un equilibrio muy interesante entre potencia y eficiencia. La variante “Thinking” incorpora un entrenamiento intermedio orientado a razonamiento multimodal, refuerza la alineación semántica entre texto e imagen y añade estrategias de refuerzo como GSPO e IcePop para estabilizar el MoE en tareas verificables, además de su famosa función de “pensar con imágenes” que combina zoom e búsqueda visual para exprimir detalles finos y conocimiento de larga cola.
¿Qué es ERNIE‑4.5‑VL‑28B‑A3B‑Thinking y por qué importa?
Dentro de la familia ERNIE 4.5, la versión VL‑28B‑A3B‑Thinking se posiciona como un modelo ligero pero ambicioso en razonamiento multimodal. Aprovecha una arquitectura MoE con 28.000 millones de parámetros totales y ~3.000 millones activos por token, lo que reduce costes de inferencia al tiempo que mantiene un rendimiento competitivo frente a modelos densos más grandes.
En su hoja técnica se habla de hasta 130 expertos con 14 activos en cada paso, una configuración que encaja con el objetivo de especialización por tipo de entrada, controlando consumo y latencia. La idea es que el enrutador seleccione “los expertos adecuados” cuando entran imágenes, textos o combinaciones de ambos, maximizando la diversidad de representaciones y la eficacia del cómputo.
Para la parte visual, el backbone es un Vision Transformer (ViT) que trocea la imagen en parches y los trata como tokens. Esa proyección al mismo espacio de incrustación que el texto facilita un “diálogo” fluido entre modalidades, apoyado por técnicas de entrenamiento como la pérdida ortogonal del router (para que los expertos no se solapen en exceso) y una pérdida multimodal equilibrada por token que evita que una modalidad eclipse a la otra.
Junto con la etiqueta “Thinking”, Baidu presume de mejoras sustanciales en razonamiento visual, análisis de gráficos, causalidad, grounding y seguimiento de instrucciones visuales. Además, la posibilidad de llamar herramientas (tool calling), generar salidas estructuradas en JSON y contar con moderación de contenidos integrada lo colocan como pieza sólida para agentes multimodales.

Arquitectura, entrenamiento y capacidades: lo que realmente aporta
La filosofía MoE permite activar únicamente una fracción de los parámetros por token, lo que se traduce en eficiencia computacional sin renunciar a la escala total del modelo. Cada “experto” puede especializarse en patrones o tareas (p. ej., OCR, diagramas, razonamiento numérico), y el enrutador aprende a combinarlos según el contexto.
En la práctica, esto se refuerza con dos ideas clave de entrenamiento: una pérdida ortogonal para el router —que incentiva la diversidad entre expertos— y una función de pérdida multimodal balanceada por tokens, que mantiene el equilibrio entre texto e imagen durante el aprendizaje. De este modo, se evita que el modelo vaya como un tiro con texto pero flojee en visión (o viceversa). En VL‑28B‑A3B‑Thinking, además, el mid‑training dedicado al razonamiento sobre pares imagen‑texto incrementa el poder de representación y endurece la alineación semántica multimodal.
En cuanto a benchmarks, análisis comparativos independientes (por ejemplo, Galaxy.AI) sitúan a ERNIE‑4.5‑VL‑28B‑A3B a la altura —o por encima— de alternativas como Qwen2.5‑VL‑7B y Qwen2.5‑VL‑32B en percepción visual, comprensión de documentos y razonamiento multimodal. Eso encaja con lo que sugiere el gráfico promocional diminuto (sí, muy difícil de leer) donde se insinúa que sigue el ritmo o supera a pesos pesados como Gemini 2.5 Pro o un GPT‑5 “alto”. Hay quien sospecha de “benchmaxxing”, pero lo cierto es que, con las mejoras de refuerzo (GSPO, IcePop) y el muestreo de dificultad dinámica, se entiende que el modelo haya ganado robustez en tareas verificables.
La función “Thinking with Images” merece una mención aparte: no es magia, sino un flujo que combina herramientas de zoom sobre la imagen y búsqueda visual para captar detalles muy finos (placas, rótulos pequeños, iconografía) y consultar long‑tail knowledge cuando el conocimiento interno no basta. Esa capacidad, junto al grounding más accesible (activar funciones de grounding con instrucciones simples), convierte al modelo en un candidato potente para aplicaciones industriales y escenarios con imágenes complejas.
En soporte multilingüe, la serie ERNIE 4.5 mantiene un rendimiento alto sin perder comprensión visual, algo clave en workflows globales. Además, la salida estructurada (JSON) y la llamada a funciones abren la puerta a casos de uso en los que el modelo no solo observa y responde, sino que actúa sobre herramientas (por ejemplo, localizar objetos y devolver sus bounding boxes con coordenadas).
Casos de uso demostrados
Razonamiento visual en gráficos de afluencia: el modelo puede cruzar fechas con días de la semana, interpretar la estructura del gráfico, detectar intervalos de menor densidad (por ejemplo, 12:00–14:00) y generar una recomendación clara de mejores horas para visitar. Aquí se observa un razonamiento por múltiples pasos que combina calendario, lectura visual y lógica.
Problemas STEM a partir de fotos: ante un circuito en puente que no puede resolverse por simple serie–paralelo, el modelo aplica leyes de Ohm y KCL, monta ecuaciones de nodos y deriva un resultado analítico correcto (p. ej., R = 7/5 Ω). Esto ilustra su capacidad de lectura técnica de diagramas y razonamiento simbólico.
Visual grounding con salida estructurada: dado “Identifica a todas las personas con traje y devuelve sus bounding boxes en JSON”, detecta a los individuos y entrega coordenadas numéricas precisas. La gracia está en combinar grounding con seguimiento de instrucciones y formato de salida programable.
“Pensar con imágenes” para OCR de detalle: si el usuario pregunta por el texto de un cartel azul al fondo, la herramienta de zoom entra en acción, permitiendo identificar rótulos minúsculos (como “HOTEL BUZA”) con más fiabilidad. Es un ejemplo de foco dinámico en regiones finas.
Uso de herramientas para conocimiento de larga cola: ante un peluche redondo amarillo, el modelo decide invocar una búsqueda de imágenes externa, compara atributos y concluye que es “Dundun”, asociado a MINISO. Este pipeline evidencia su capacidad de orquestación de pasos con herramientas.
Comprensión de vídeo: extrae subtítulos con marcas de tiempo y localiza escenas específicas (por ejemplo, segmentos alrededor de 17s, 37s y 47s filmados en un puente). Aquí mezcla extracción de texto, razonamiento temporal y análisis espaciotemporal del contenido.
Otra variante destacada: ERNIE‑4.5‑21B‑A3B‑Thinking
Junto a la edición VL‑28B, existe una variante centrada en razonamiento textual/código con 21B totales y 3B activos por token. Nació con la idea de “más inteligente, no más grande”, mostrando un rendimiento notable en lógica, matemáticas, programación y cadenas de razonamiento prolongadas. Publicada bajo Apache‑2.0 y con ventana de contexto ampliada (en el rango 128K–131K), resulta muy atractiva para tareas de formato largo y análisis comparado de múltiples documentos.
Uno de sus reclamos es el precio: se han publicitado tarifas orientativas a través de ciertas plataformas con costes por millón de tokens muy agresivos (por ejemplo, $0,07 entrada y $0,28 salida, e incluso “$0/$0” en alguna configuración de 21B), si bien conviene verificar disponibilidad real y condiciones, porque el ecosistema de despliegue y los acuerdos comerciales pueden variar.
Comparativas y ruido del mercado
Sobre el famoso gráfico diminuto que compara con Gemini 2.5 Pro y un GPT‑5 “alto”: es marketing, no una auditoría independiente. Aun así, al contrastar con baterías públicas (Qwen2.5‑VL‑7B/32B, etc.) el modelo mantiene el tipo. Como siempre, conviene probar en tus datos y métricas objetivo, porque la generalización varía según dominio, calidad de prompts, herramientas disponibles y mezcla de entradas (texto/imagen/vídeo).
Cuantización y requisitos de memoria
En despliegue local, la cuantización ayuda. Con FP16, se ha estimado en torno a ~56 GB de VRAM; con 4 bits, rondaría ~14 GB; y con 2 bits, ~7 GB. Ojo: estos números dependen del runtime y del empaquetado. Por ejemplo, algunas guías de FastDeploy hablan de 24 GB como mínimo por tarjeta, y en otros entornos (p. ej., vLLM más exigente) se citan 80 GB para configuraciones concretas. Según el stack (PaddlePaddle, PyTorch, kernels, sequence length, batch, KV cache), la cifra práctica puede moverse.
Soporte multilingüe y moderación
El soporte de varios idiomas sin sacrificar visión es otro de los puntos fuertes. Y para producción orientada al usuario, la moderación integrada añade una capa de seguridad que reduce riesgos de despliegue. La salida estructurada y la llamada a funciones permiten integrar el modelo como un “motor” dentro de pipelines con herramientas externas, no solo como un chatbot.
Un ejemplo extremo de comprensión documental
El modelo puede enfrentarse a transcripciones históricas complejas, como textos sobre los “Cinco Reyes de Wō” en fuentes chinas, cruzando referencias del “Libro de Song”, inscripciones en la estela de Gwanggaeto, o notas al pie con años (p. ej., 478) y ubicaciones (Ji’an, Jilin). Ese tipo de entrada mezcla traducciones, notas aclaratorias y contexto arqueológico (túmulos, espadas con inscripciones como “Daio” que se asocia a Bu/Yūryaku). Un sistema como ERNIE‑4.5‑VL‑28B‑Thinking puede segmentar ese material, reconocer nombres propios (Yomi, Mí, Sei, Ō, Bu), vincularlos con figuras imperiales japonesas y articular un resumen coherente con los hechos: tributos a dinastías chinas del sur, conflicto en la península de Corea, base en Kara/Imna por recursos de hierro, etc.
Implementación, acceso y preguntas frecuentes
Hay varias formas de probar y desplegar ERNIE 4.5. Por un lado, Baidu ofrece acceso web para empezar sin instalar nada. Por otro, hay integraciones en plataformas de terceros (p. ej., Novita API Playground) que facilitan evaluar el modelo en entornos de desarrollo y medir costes. En local, el stack recomendado suele ser Linux, con PaddlePaddle (ERNIEKit) y compatibilidad transversal con Transformers en PyTorch usando trust_remote_code cuando toque.

Despliegue con Transformers (PyTorch)
La ruta típica pasa por cargar el modelo con AutoModelForCausalLM, añadir el preprocessado de imágenes desde AutoProcessor y construir mensajes multimodales donde se combinan texto e imagen/vídeo. Después, se genera con límites de tokens adecuados y se decodifica la salida. La clave es que el processor gestione tanto el template de chat como la preparación de tensores visuales.
<!-- Ejemplo orientativo (parafraseado) -->
from transformers import AutoModelForCausalLM, AutoProcessor
import torch
name = "baidu/ERNIE-4.5-VL-28B-A3B-Thinking"
model = AutoModelForCausalLM.from_pretrained(
name, device_map="auto", dtype=torch.bfloat16, trust_remote_code=True
)
processor = AutoProcessor.from_pretrained(name, trust_remote_code=True)
model.add_image_preprocess(processor)
messages = [{
"role": "user",
"content": [
{"type": "text", "text": "¿De qué color es la ropa de la chica?"},
{"type": "image_url", "image_url": {"url": "https://.../example1.jpg"}}
]
}]
text = processor.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = processor.process_vision_info(messages)
inputs = processor(text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt")
out_ids = model.generate(**{k: v.to(model.device) for k, v in inputs.items()}, max_new_tokens=256)
print(processor.decode(out_ids[0][len(inputs["input_ids"][0]):]))
Inferencia con vLLM
vLLM acelera la inferencia y añade opciones como parsers específicos para razonamiento y tool calls. Recuerda habilitar –trust-remote-code al servir el modelo si el repositorio lo requiere.
# Instalar nightly (orientativo)
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
# Servir el modelo
vllm serve baidu/ERNIE-4.5-VL-28B-A3B-Thinking --trust-remote-code
# Con parsers de razonamiento y herramientas
evllm serve baidu/ERNIE-4.5-VL-28B-A3B-Thinking \
--trust-remote-code \
--reasoning-parser ernie45 \
--tool-call-parser ernie45 \
--enable-auto-tool-choice
FastDeploy y ERNIEKit
FastDeploy permite exponer servicios rápidos con parámetros para control de longitud máxima, número de secuencias, cuantización (wint8/INT4), parsers de razonamiento y ajustes del procesador multimodal (por ejemplo, image_max_pixels). Los requisitos de VRAM citados varían: se ha comentado desde 24 GB por tarjeta hasta escenarios que requieren 80 GB en otras guías; depende de la combinación de modelo, precisión, lote y longitudes.
# Ejemplo orientativo
fastdeploy serve --model baidu/ERNIE-4.5-VL-28B-A3B-Thinking \
--max-model-len 131072 \
--max-num-seqs 32 \
--port 8180 \
--quantization wint8 \
--reasoning-parser ernie-45-vl-thinking \
--tool-call-parser ernie-45-vl-thinking \
--mm-processor-kwargs '{"image_max_pixels": 12845056 }'
Ajuste fino (SFT/LoRA) y alineación (DPO)
ERNIEKit, basado en PaddlePaddle, trae configuraciones listas para SFT con y sin LoRA, y para DPO. Es útil para adaptar el modelo a dominios específicos (p. ej., documentos industriales, inspección visual, formularios) manteniendo la robustez multimodal. Puedes descargar el repositorio del modelo y ejecutar plantillas de entrenamiento incluidas en los ejemplos del toolkit.
Acceso vía APIs y plataformas
Además de la plataforma de Baidu, hay integraciones compatibles con el estándar OpenAI API. Esto simplifica la migración desde herramientas existentes (por ejemplo, clientes de línea de comando o editores como Cursor) evitando rehacer integraciones. Algunas nubes de GPU (como Novita AI) anuncian instancias con VRAM amplia y precios por hora, así como escalado a múltiples GPUs, lo cual es útil si quieres probar configuraciones grandes sin invertir en hardware propio.
Licencia y uso comercial
La familia ERNIE 4.5 se publica bajo Apache 2.0, una licencia permisiva que permite uso comercial respetando términos y avisos. Esto facilita crear productos de pago integrando el modelo y sus derivados, siempre que mantengas la conformidad de licencia y la atribución correspondiente (p. ej., citando el informe técnico).
Precios y contexto
Se han compartido referencias de precio muy competitivas. Por ejemplo, para la edición 300B A47B se habla de contexto de 123k y costes orientativos de $0,28/M de entrada y $1,10/M de salida; para 21B A3B, se han visto cifras publicitadas tan bajas como $0/$0. Conviene contrastar la disponibilidad y las condiciones exactas en la plataforma correspondiente, porque las tarifas dependen del proveedor, la cuota de uso, la región y el SLA.
Rendimiento en tareas reales
Más allá del papel, lo interesante es dónde brilla: lectura de documentos con mezcla de texto y elementos visuales (sellos, tablas, firmas), extracción de datos con grounding (coordenadas), resolución de problemas STEM a partir de fotografías o pizarras, sumarios de vídeos con localización temporal de eventos y tool‑use para conocimiento largo de cola. Si tu aplicación encaja en ese perfil, “Thinking” añade piezas útiles.
FAQ rápida
- ¿Qué significa “Thinking with Images”? — Es un flujo que combina zoom y búsqueda visual para capturar detalles y consultar conocimiento externo cuando el interno no basta, mejorando el razonamiento fino.
- ¿Cuánta VRAM necesito? — Depende. Como guía gruesa: FP16 ~56 GB; INT4 ~14 GB; 2‑bit ~7 GB. Pero el runtime y el tamaño de contexto pueden subir el listón, especialmente con vLLM.
- ¿Se integra con herramientas? — Sí, soporta llamadas a funciones y salida JSON, lo que habilita agentes multimodales con grounding, OCR, búsqueda, etc., encadenando pasos verificables.
- ¿Hay alternativa “solo texto” fuerte? — ERNIE‑4.5‑21B‑A3B‑Thinking destaca en lógica, matemáticas y código, con buena relación coste‑rendimiento y contexto extenso.
Si buscas un modelo multimodal que equilibre eficiencia y capacidad, ERNIE‑4.5‑VL‑28B‑A3B‑Thinking resulta especialmente atractivo. Sus pilares son el MoE afinado (130 expertos con 14 activos), el ViT acoplado a un espacio compartido con texto, la pérdida ortogonal del router y la pérdida multimodal balanceada por token, reforzados por un mid‑training de razonamiento, RL con GSPO/IcePop y “pensar con imágenes”. Sus demos muestran razonamiento visual multi‑paso, grounding preciso, STEM desde fotos, uso de herramientas y comprensión de vídeo con conciencia temporal. El acceso flexible (Baidu, API compatibles, despliegue local con Paddle/Transformers), la licencia Apache‑2.0 y opciones de cuantización completan un paquete que, marketing aparte, tiene mimbres técnicos para competir muy bien.
Redactor apasionado del mundo de los bytes y la tecnología en general. Me encanta compartir mis conocimientos a través de la escritura, y eso es lo que haré en este blog, mostrarte todo lo más interesante sobre gadgets, software, hardware, tendencias tecnológicas, y más. Mi objetivo es ayudarte a navegar por el mundo digital de forma sencilla y entretenida.
