TurboQuant, la IA de Google con menos memoria y mismo rendimiento

Mundobytes » Software » TurboQuant: la IA de Google que promete el mismo rendimiento con mucha menos memoria

TurboQuant comprime la KV cache hasta seis veces sin pérdida apreciable de calidad, reduciendo de forma drástica el uso de memoria en la inferencia de IA.
La técnica combina PolarQuant y QJL para cuantizar vectores hasta 3 bits y acelerar el cálculo de atención hasta ocho veces en GPUs avanzadas.
Su adopción podría abaratar la operación de grandes modelos, alterar la demanda de RAM y HBM y cambiar el equilibrio entre hardware y algoritmos.

IA de Google con menos memoria y mismo rendimiento

Llevamos meses hablando de la crisis de la memoria RAM y de cómo la inteligencia artificial ha disparado la demanda de chips hasta niveles casi ridículos para cualquiera que quiera ampliar su PC o montar un servidor doméstico. En medio de este panorama, Google Research ha presentado TurboQuant, una técnica de compresión que promete hacer que los modelos de IA necesiten mucha menos memoria sin sacrificar precisión ni velocidad, algo que suena casi a ciencia ficción pero que ya está empezando a agitar el mercado.

Lo interesante de todo esto es que TurboQuant no es un pequeño ajuste cosmético, sino un cambio profundo en cómo se gestiona la memoria interna de los grandes modelos de lenguaje. Hablamos de reducir hasta seis veces el tamaño de la memoria de trabajo que usan estos sistemas para «recordar» lo que acabas de escribirles, manteniendo la calidad de las respuestas y, en muchos casos, acelerando el cálculo de la atención. Para los usuarios puede significar IA más barata y accesible; para los fabricantes de memoria, un serio aviso de que esta fiesta puede no durar para siempre.

Qué problema ataca TurboQuant: el cuello de botella de la KV cache

Cómo funciona TurboQuant: cuantización vectorial llevada al extremo

La clave de TurboQuant está en que no se limita a comprimir más, sino a comprimir mejor la KV cache. La técnica se basa en cuantización vectorial muy agresiva, llevando los valores hasta 3 bits por elemento sin pérdidas apreciables de calidad, algo que hasta ahora sonaba casi imposible en contextos tan sensibles como el cálculo de atención de los LLM.

Google combina en TurboQuant dos ideas principales: PolarQuant y QJL. Por un lado, PolarQuant se encarga de reorganizar los vectores y llevarlos a un sistema de coordenadas distinto, lo que facilita su compresión. Por otro, QJL añade una corrección de un solo bit que compensa el error residual y evita que el modelo mire a las partes equivocadas del texto durante la atención, manteniendo así la fidelidad de los cálculos.

Con PolarQuant, los vectores dejan de representarse con las coordenadas cartesianas tradicionales (X, Y, Z) y pasan a un sistema donde se expresan mediante un radio y uno o varios ángulos. Si lo aterrizamos a un ejemplo de andar por casa, en vez de decir «muévete tres pasos al este y cuatro al norte», le dices al modelo «muévete cinco pasos en un ángulo de 37 grados». Esa forma de codificar la información permite describir la misma posición con menos datos, lo que abre la puerta a una compresión mucho más fuerte.

AMD Ryzen Z2 AI Extreme: la nueva apuesta para portátiles con IA

La gracia está en que los métodos clásicos de cuantización solían necesitar guardar constantes o escalas adicionales para que la compresión no destrozara la calidad, añadiendo uno o dos bits extra por valor. Ese sobrecoste de memoria se comía buena parte del ahorro. PolarQuant, en cambio, reduce o elimina esa carga adicional, lo que hace que la compresión neta sea realmente significativa cuando multiplicamos por millones de vectores en contextos larguísimos.

La segunda pata del sistema es QJL, una capa extra de corrección que utiliza una variante cuantizada de la transformada de Johnson-Lindenstrauss. En la práctica, se proyecta el error residual en un espacio de menor dimensión y se codifica cada valor con un único bit de signo, sin añadir prácticamente coste de memoria al conjunto. Ese pequeño ajuste corrige los sesgos que introduciría una cuantización tan agresiva y mantiene a raya los errores acumulados.

El resultado de combinar PolarQuant y QJL es que Google puede cuantizar la KV cache a 3 bits, e incluso usar 4 bits para acelerar operaciones, sin degradación apreciable. En pruebas internas con GPUs Nvidia H100, el cálculo de la atención llegó a ser hasta ocho veces más rápido respecto a claves no cuantizadas en 32 bits, lo que en contexto de centros de datos supone una diferencia muy relevante.

Resultados en benchmarks y validación técnica independiente

Más allá de las promesas, Google probó TurboQuant en un abanico amplio de benchmarks de contexto largo para no quedarse en ejemplos de juguete. Entre las pruebas se incluyen LongBench, Needle In A Haystack, ZeroSCROLLS, RULER o L-Eval, que miden la capacidad de los modelos para manejar textos extensos, localizar información concreta en documentos enormes o mantener coherencia en tareas complejas.

Los investigadores evaluaron TurboQuant sobre modelos abiertos como Gemma y Mistral, y lo contrastaron frente a técnicas conocidas como KIVI o métodos de cuantización estándar usados en recuperación vectorial, incluyendo Product Quantization o RabbiQ. El mensaje que transmite Google es contundente: el modelo comprimido consigue resultados idénticos o prácticamente indistinguibles del original, mientras reduce de manera muy notable el tamaño de la KV cache.

En algunos de estos bancos de prueba, el equipo de Google habla directamente de «neutralidad absoluta de calidad»: el comportamiento del modelo cuantizado es bit a bit equivalente al del modelo sin comprimir para las métricas evaluadas. No se trata de un «se parece bastante», sino de que, dentro de los márgenes de los tests, el sistema responde igual.

Otro dato llamativo es que TurboQuant no necesita reentrenar el modelo, ni hacer fine-tuning con datos específicos. Se aplica como una capa adicional sobre modelos ya existentes, con una sobrecarga de tiempo de ejecución muy baja, algo esencial si se quiere desplegar en sistemas de producción a gran escala.

Aunque Google no ha publicado todavía un repositorio oficial con la implementación, desarrolladores independientes han replicado el algoritmo a partir del paper y han logrado reproducir los resultados, incluyendo salidas idénticas entre el modelo original y el comprimido en GPUs de consumo. Es un indicio fuerte de que no estamos ante humo académico, sino ante una técnica reproducible.

Impacto en memoria, rendimiento y despliegue de modelos

La conclusión inmediata de todo lo anterior es clara: si la KV cache se reduce hasta seis veces, el mismo hardware puede hacer muchísimo más. Con un conjunto de GPUs dado, un proveedor de IA puede optar por varias estrategias según sus prioridades.

Una primera opción es atender más usuarios concurrentes con la misma infraestructura, porque cada conversación ocupará bastante menos memoria. Otra consiste en sostener contextos mucho más largos, permitiendo diálogos extensos o documentos gigantes sin tener que recortar historia o usar trucos de resumen intermedio. Y, por supuesto, existe la posibilidad de ejecutar modelos más grandes en máquinas con menos memoria disponible, lo que abre la puerta a despliegues más potentes en entornos con recursos limitados.

En el plano del rendimiento, el acelerón en el cálculo de atención, de hasta ocho veces en configuraciones de 4 bits sobre H100, tiene implicaciones directas en la latencia percibida por el usuario y en el coste por token procesado. Aunque el 8x aplica a un componente concreto del pipeline y no a toda la inferencia, sigue siendo un avance considerable en uno de los pasos más pesados de los modelos de lenguaje.

Google ilustra el impacto económico con un ejemplo concreto: un modelo de unos 690.000 millones de parámetros cuantizado con la técnica de 4 bits en chips Nvidia Blackwell podría pasar de costar alrededor de 1 dólar por millón de tokens en configuraciones densas a unos 0,05 dólares. Es una caída brutal del coste unitario que, si se materializa en servicios comerciales, podría cambiar radicalmente los precios de mercado.

Atos impulsa el futuro del entorno laboral con su IA Generativa Espressive Barista

No obstante, conviene tener claro un detalle importante: TurboQuant se aplica a la fase de inferencia, no al entrenamiento. La etapa de entrenamiento de modelos gigantes sigue necesitando cantidades descomunales de memoria y cómputo, por lo que la demanda de HBM, GDDR y RAM de alto rendimiento no desaparece de la noche a la mañana. Lo que sí hace TurboQuant es aliviar el coste continuo de mantener esos modelos funcionando para millones de usuarios.

Consecuencias para la industria de la memoria y la bolsa

El anuncio de TurboQuant no tardó en reflejarse donde más duele: en las cotizaciones de los grandes fabricantes de memoria. Empresas como Micron, Samsung, SK Hynix, SanDisk (Western Digital) o Kioxia venían de una etapa muy dulce, impulsada por la sed de RAM y HBM de la IA, y el simple hecho de que se vislumbre una tecnología que permita hacer «lo mismo con menos» ha encendido las alarmas.

Tras la publicación del estudio, las acciones de varios de estos fabricantes sufrieron caídas apreciables. En algunos casos se ha hablado de descensos acumulados por encima del 20% desde máximos recientes, con jornadas concretas en las que Samsung llegó a caer alrededor de un 8%, SK Hynix cerca de un 11% y Micron en torno a un 10%. Western Digital y otros actores también se vieron arrastrados por la corriente bajista.

El razonamiento de muchos inversores es directo: si los grandes modelos de IA pueden funcionar con mucha menos memoria por usuario, la demanda explosiva de chips DRAM y HBM podría moderarse antes de lo previsto, reduciendo el margen de maniobra de los fabricantes para seguir subiendo precios y manteniendo márgenes extraordinarios.

Sin embargo, no todo el mundo comparte esa lectura catastrofista. Algunas voces del sector financiero, como analistas de Morgan Stanley, apuntan a lo que se conoce como la Paradoja de Jevons: cuando una tecnología hace más eficiente el uso de un recurso, el consumo total de ese recurso a menudo termina aumentando, porque se abren nuevas aplicaciones y se disparan los volúmenes de uso.

Aplicado a la IA, abaratar de forma drástica la inferencia puede provocar que la gente y las empresas usen todavía más estos sistemas, generando más tráfico, más tokens y más necesidad de modelos más grandes y complejos. En ese escenario, la demanda de memoria no se reduciría, sino que podría intensificarse, aunque repartida de manera distinta y con una presión algo menor sobre ciertos tipos de módulos.

Cómo puede notarlo el usuario de PC y el mercado de consumo

Aunque TurboQuant está pensado principalmente para centros de datos y grandes despliegues de IA, el movimiento coincide con algunos cambios interesantes en el mercado de la RAM de consumo. En las últimas semanas, por ejemplo, se han visto bajadas notables en kits como los Corsair Vengeance DDR5 de 32 GB a 6000 MHz (2×16 GB), que han pasado de precios cercanos a los 490 euros a entornos de 340 euros aproximadamente en algunos comercios online.

Eso sí, hay que ser prudentes: la técnica de Google afecta directamente a la memoria utilizada en aceleradoras de IA (HBM en GPUs de gama alta, por ejemplo), no a los módulos DDR5 para PC de sobremesa o portátiles. Las bajadas de precio que vemos en tiendas se deben más a los ciclos normales de oferta y demanda, la llegada de nuevas generaciones y el ajuste de inventarios, que a TurboQuant en sí.

Dicho esto, si las grandes compañías de IA acaban necesitando algo menos de memoria por servidor, parte de la producción de DRAM y HBM podría liberarse y destinarse a otras gamas, o al menos reducir la presión que ha encarecido últimamente casi cualquier módulo de RAM. En un escenario optimista, eso podría ayudar a que el mercado de consumo recupere cierta normalidad en precios.

Al mismo tiempo, hay otro escenario plausible: que la eficiencia adicional se traduzca en modelos mucho más grandes y servicios de IA aún más ubicuos, de modo que el volumen total de memoria demandado siga subiendo. En ese caso, los usuarios domésticos no verían necesariamente un abaratamiento significativo, o no al ritmo que muchos esperan después de haber visto las caídas bursátiles de los fabricantes.

Este choque entre expectativas y realidad es lo que hace que, por ahora, la situación siga siendo incierta para el público general que solo quiere ampliar su PC sin hipotecarse. Las fichas se están moviendo, pero el efecto final sobre el precio de un módulo DDR5 en una tienda online aún está por definirse.

El «momento Pied Piper» y el paralelo con DeepSeek

La reacción en la comunidad tecnológica no se ha quedado solo en análisis fríos: las comparaciones con la serie «Silicon Valley» han sido inmediatas. En la ficción, la startup Pied Piper desarrollaba un algoritmo de compresión revolucionario que amenazaba con cambiar por completo la industria tecnológica, con una eficiencia tan extrema que parecía magia.

Guía completa para entender FOSDEM

Con TurboQuant han proliferado los chistes y paralelismos en redes sociales, presentándolo como el Pied Piper de la memoria para la IA. La broma tiene un fondo de verdad: una compresión sin pérdidas apreciables, desplegable sobre sistemas ya existentes y con impacto directo en costes es, precisamente, el tipo de innovación que puede alterar equilibrios de mercado.

Otra referencia recurrente es el llamado «momento DeepSeek» de Google. Hace un tiempo, la startup china DeepSeek sacudió la industria al presentar un modelo competitivo con los mejores, pero construido con un coste de entrenamiento muy inferior al de sus rivales estadounidenses. Aquello demostró que la eficiencia también era una vía para dominar el juego, no solo la fuerza bruta de cómputo.

TurboQuant encaja en esa narrativa: hace lo mismo que los modelos actuales, pero pidiendo muchos menos recursos en la fase de uso diario. No es tanto un salto en inteligencia como un salto en ingeniería y optimización, que se alinea con una tendencia más amplia de exprimir algoritmos y software para reducir la dependencia de hardware cada vez más caro.

El hecho de que el trabajo se vaya a presentar en ICLR 2026, una de las conferencias más importantes de aprendizaje automático, subraya que no estamos ante una simple nota de prensa llamativa, sino ante una contribución seria dentro de la comunidad investigadora, con revisiones y escrutinio por parte de expertos del campo.

Más algoritmo, menos músculo bruto de hardware

Durante los últimos dos años, buen aparte del debate sobre IA se ha centrado en quién tiene más GPUs, más HBM y más centros de datos. Parecía que todo iba de acumular silicio y energía eléctrica, con inversiones astronómicas y planes de expansión de infraestructuras que batían récord tras récord.

TurboQuant simboliza el giro hacia otra idea: todavía queda un margen enorme para optimizar en el nivel de los algoritmos. En vez de seguir escalando únicamente a fuerza de meter más memoria y más núcleos, se puede intentar que cada byte y cada operación cuenten más, reduciendo cuellos de botella como la KV cache sin empeorar la experiencia de usuario.

Para las grandes tecnológicas, esto es especialmente atractivo porque abre la posibilidad de bajar los precios por token de inferencia sin reducir márgenes, simplemente gracias a que el coste subyacente cae de forma drástica. Otra cosa es que decidan trasladar ese ahorro al cliente final o prefieran mantener tarifas similares y mejorar sus cifras de beneficios.

En paralelo, esta línea de investigación envía un mensaje muy claro al ecosistema: no todo se va a decidir en la capacidad de producir más memoria y más chips. También competirán quienes consigan que cada gigabyte rinda mucho más. Para startups y proyectos más pequeños, técnicas como TurboQuant pueden ser una oportunidad para jugar en ligas superiores sin necesidad de presupuestos descomunales.

Al final, el verdadero límite de muchos proyectos de IA no está tanto en lo que el modelo es capaz de hacer en términos de calidad, sino en cuánto cuesta mantenerlo en producción a gran escala. Un sistema brillante en laboratorio es irrelevante si resulta económicamente inviable cuando lo usan millones de personas a diario.

Lo que está proponiendo Google con TurboQuant es, en esencia, desbloquear gran parte de ese potencial atrapado por la memoria: dar aire a la infraestructura, permitir contextos más amplios sin disparar los costes y, de paso, obligar a repensar el papel de los fabricantes de RAM en un mercado donde el software empieza a apretar cada vez más a la base de hardware.

Todo apunta a que la combinación de compresión extrema de la KV cache, ahorro de memoria de hasta seis veces y aceleración del cálculo de atención podría marcar un antes y un después en cómo escalamos la IA, abriendo un escenario en el que la pregunta ya no sea solo cuánta RAM tenemos, sino qué tan inteligente es el algoritmo que decide cómo la usamos.

Isaac

Redactor apasionado del mundo de los bytes y la tecnología en general. Me encanta compartir mis conocimientos a través de la escritura, y eso es lo que haré en este blog, mostrarte todo lo más interesante sobre gadgets, software, hardware, tendencias tecnológicas, y más. Mi objetivo es ayudarte a navegar por el mundo digital de forma sencilla y entretenida.