- DiffusionGemma sustituye la generación secuencial de tokens por un sistema de difusión que crea bloques de texto en paralelo.
- Utiliza una arquitectura MoE de 26B parámetros optimizada para ejecutarse en hardware doméstico con 18 GB de VRAM.
- Soporta entradas multimodales de texto, imagen y vídeo, ofreciendo una velocidad de inferencia hasta 4 veces superior en entornos locales.
- Está disponible bajo licencia Apache 2.0 en plataformas como Hugging Face y Vertex AI para su libre implementación.

Seguramente te suene que la inteligencia artificial escribe palabras una tras otra, como si estuviera pensando en voz alta mientras redacta. Pues bien, Google DeepMind ha decidido romper con esa norma y ha lanzado DiffusionGemma, un modelo experimental que manda a paseo el proceso secuencial para apostar por algo mucho más disruptivo y veloz.
Este proyecto no es una simple actualización, sino que propone un cambio de paradigma. En lugar de jugar a adivinar el siguiente token, DiffusionGemma utiliza técnicas de difusión, muy similares a las que usan herramientas como Stable Diffusion para crear imágenes, pero aplicadas ahora al lenguaje natural para lograr una eficiencia sorprendente.
¿Cómo funciona realmente este sistema de difusión de texto?
Imagina que, en vez de usar una máquina de escribir, tuviéramos una imprenta capaz de plasmar bloques enteros de texto de una sola vez. Así es como describe el proceso el equipo de Google. El modelo comienza con un lienzo de tokens aleatorios (básicamente ruido) y, a través de un proceso iterativo de reducción de ruido, va puliendo la información hasta que el texto es coherente y preciso.
A diferencia de los modelos autorregresivos tradicionales, que sufren cuellos de botella por el ancho de banda de la memoria, DiffusionGemma genera bloques de 256 tokens simultáneamente. Esto significa que aprovecha la potencia de cálculo bruta del hardware en lugar de esperar a que la memoria entregue los datos uno a uno, lo que dispara la velocidad de respuesta.
Una de las joyas de este sistema es la atención bidireccional. Al procesar el bloque completo, cada palabra puede «mirar» a todas las demás al mismo tiempo. Esta capacidad es un auténtico regalo para tareas no lineales, como cuando se escribe código de programación o se resuelven grafos matemáticos, donde el contexto global es fundamental.
Arquitectura técnica y capacidades multimodales
El corazón de este modelo es una arquitectura de mezcla de expertos conocida como MoE (Mixture of Experts) de 26B, de la cual solo 4B de parámetros están activos en cada momento. Esto permite que el sistema tenga un razonamiento profundo pero sin que el ordenador explote por el esfuerzo, manteniendo una sobrecarga de recursos mínima.
En cuanto a lo que puede «leer», DiffusionGemma es un modelo multimodal. Es capaz de procesar entradas de texto, imágenes y vídeo de forma nativa, adaptándose a diferentes resoluciones y relaciones de aspecto. Eso sí, hay que tener en cuenta que no admite entrada de audio, centrando todo su potencial en el resultado textual.
Para los que les gusta trastear con la configuración, el modelo incluye un modo de razonamiento configurable. Esto permite que la IA «piense» paso a paso antes de soltar la respuesta final, asegurando que el camino lógico sea el correcto antes de imprimir el bloque de texto.
Optimización para el usuario local y hardware
Si eres de los que prefiere ejecutar la IA en casa y no depender de la nube, aquí tienes una gran noticia. DiffusionGemma ha sido optimizado para GPUs de consumo, ajustándose cómodamente a límites de 18 GB de VRAM gracias a la cuantización. Es la herramienta ideal para quienes buscan baja latencia en entornos locales.
Para conseguir que el modelo rinda al máximo, Google recomienda una configuración específica de muestreo. El límite superior de pasos de reducción de ruido se sitúa en 48 pasos, aunque gracias a la detención adaptativa, el proceso suele terminar mucho antes, entre los 12 y 16 pasos dependiendo de la complejidad.
Otro detalle clave es el programa de temperatura lineal, que empieza en 0.8 para fomentar la creatividad y exploración inicial, y termina en 0.4 para cerrar los tokens finales con precisión. Además, utiliza un umbral de entropía para detener la ejecución si el modelo ya está seguro de la respuesta, evitando desperdiciar ciclos de cómputo.
Comparativa: Velocidad frente a Calidad
No todo es color de rosa y hay que ser realistas: este enfoque prioriza la rapidez sobre la perfección absoluta. En las pruebas de rendimiento, DiffusionGemma se queda un pelín por detrás de los modelos Gemma estándar en cuanto a capacidad de razonamiento puro. Estamos ante un dilema claro entre velocidad extrema y calidad máxima.
Sin embargo, la ventaja es aplastante en el hardware local. Mientras que los modelos tradicionales subutilizan la GPU al procesar token a token, este modelo maximiza el rendimiento del chip al llenar el pipeline de datos. En ciertos escenarios, puede llegar a ser hasta 4 veces más rápido que sus predecesores.
El modelo ha sido distribuido bajo la licencia Apache 2.0, lo que significa que cualquier desarrollador puede modificarlo o comercializar aplicaciones basadas en él. Está disponible en plataformas como Hugging Face, Kaggle y Vertex AI, y se espera que pronto tenga soporte total para la librería llama.cpp.
Estamos ante un cambio de rumbo donde la inteligencia ya no depende solo de hacer modelos gigantescos, sino de crear arquitecturas más eficientes. Al procesar la información en paralelo y reducir la dependencia del ancho de banda de la memoria, Google ha abierto la puerta a una IA local mucho más ágil, económica y accesible para todos los usuarios.
Redactor apasionado del mundo de los bytes y la tecnología en general. Me encanta compartir mis conocimientos a través de la escritura, y eso es lo que haré en este blog, mostrarte todo lo más interesante sobre gadgets, software, hardware, tendencias tecnológicas, y más. Mi objetivo es ayudarte a navegar por el mundo digital de forma sencilla y entretenida.