Benchmarks InferenceMAX y el dominio de NVIDIA Blackwell

Última actualización: 10/10/2025
Autor: Isaac
  • InferenceMAX v1 mide rendimiento y economía real con pruebas nocturnas reproducibles.
  • NVIDIA Blackwell lidera en tokens/s, coste por millón de tokens y tokens por MW.
  • Software continuo (TensorRT-LLM, Dynamo, SGLang, vLLM) impulsa mejoras 5x-15x.
  • GB200 NVL72 logra ROI 15x y TCO mínimo en cargas densas y modelos MoE.

Benchmarks InferenceMAX de IA

La conversación sobre rendimiento de inferencia en IA se ha acelerado, y con razón: InferenceMAX v1 ha puesto orden con datos verificables y actualizados que miran más allá de la velocidad bruta para evaluar economía real. En este contexto, la plataforma Blackwell de NVIDIA no solo ha marcado el ritmo, lo ha arrasado con resultados de eficiencia y coste por token sin precedentes.

En pocas palabras, hablamos de un cambio de era: de “cuánto corre” a “cuánto rinde por euro y por vatio en producción”. La combinación de hardware Blackwell (B200 y GB200 NVL72), interconexión NVLink de quinta generación, precisión baja NVFP4 y optimizaciones continuas de software (TensorRT-LLM, Dynamo, SGLang, vLLM) eleva el listón en tokens/s, coste por millón de tokens y ROI efectivo en escenarios reales.

Qué es InferenceMAX v1 y por qué importa

La mayor queja de la industria era que los benchmarks tradicionales caducan rápido y a menudo favorecen configuraciones irreales. InferenceMAX v1 rompe con eso: es un benchmark open source, automatizado y con ejecuciones nocturnas bajo licencia Apache 2.0 que reevalúa frameworks y modelos populares a diario para capturar el progreso real del software.

Para cada combinación de modelo y hardware, el sistema realiza barridos de tamaños de paralelismo tensorial y concurrencia, y presenta curvas de rendimiento que equilibran throughput y latencia. Además, se publican resultados de CI diariamente y se prueban múltiples frameworks (SGLang, TensorRT-LLM y vLLM), lo que permite ver cómo las optimizaciones recientes mueven la frontera de Pareto en tiempo casi real.

A nivel metodológico, los tests cubren single-node y multi-node con Expert Parallelism (EP), e incluyen longitudes de secuencia de entrada/salida variables (80%-100% de combinaciones ISL/OSL) para imitar cargas reales de razonamiento, procesamiento documental, resumen y chat. El resultado es una radiografía continua de latencia, throughput, tamaños de lote y ratios de entrada/salida que representa la economía operativa real, no solo la teoría.

Blackwell lidera: rendimiento, eficiencia y economía a escala

Los datos publicados dejan poco espacio a la duda: NVIDIA Blackwell barre InferenceMAX v1 en rendimiento de inferencia y eficiencia en toda la gama de cargas. Frente a la generación Hopper (HGX H200), el salto a B200 y GB200 NVL72 supone mejoras de orden de magnitud en compute-per-watt y ancho de banda de memoria, además de una caída drástica del coste por millón de tokens.

Concretando, el sistema GB200 NVL72 logra un ROI de 15x: una inversión de 5 millones de dólares puede generar 75 millones en ingresos por tokens. Este dato no es un truco contable: responde a la combinación de NVFP4 para precisión baja nativa, NVLink y NVLink Switch de quinta generación y la madurez de TensorRT-LLM y NVIDIA Dynamo en la pila de software.

La historia se repite con el coste por token. En gpt-oss, las optimizaciones de B200 han reducido el coste a dos centavos por millón de tokens, un 5x menos en apenas dos meses. Esta tendencia, respaldada por mejoras de software en curso, cambia por completo la viabilidad económica de nuevos casos de uso.

Metodología que captura la realidad de producción

InferenceMAX v1 no solo mide tokens por segundo. Mapea throughput frente a latencia sobre una frontera de Pareto que ayuda a decidir en qué punto compensa operar, según SLA de interactividad y objetivos de TCO. Lo relevante es cómo Blackwell mantiene ventajas en todo el rango, no en una única esquina óptima.

Para dar representatividad, las pruebas incluyen concurrencias de 4 a 64 (y escenarios más allá de estos límites en análisis complementarios), diversas configuraciones de EP y DEP y modelos de referencia en la comunidad, desde gpt-oss 120B a Llama 3.3 70B o DeepSeek-R1. Todo con repositorio abierto y recetas reproducibles para que cualquiera valide resultados.

Rendimiento puro: tokens/s por GPU e interactividad

Blackwell B200 marca el ritmo con cifras que hace un año parecían ciencia ficción. Con la pila más reciente de NVIDIA TensorRT-LLM, se reportan 60.000 tokens por segundo por GPU y hasta 1.000 tokens por segundo por usuario en gpt-oss, manteniendo una interactividad que no sacrifica la experiencia.

  Claude Sonnet 4.5: así mejora agentes, código y uso de PC

En modelos densos como Llama 3.3 70B, que activan todos los parámetros en inferencia, Blackwell consigue en InferenceMAX v1 10.000 tokens/s por GPU a 50 TPS/usuario, más de 4x frente a H200. Esta mejora se apoya en NVFP4, quinta generación de Tensor Cores y el ancho de banda de NVLink bidireccional a 1.800 GB/s, evitando cuellos de botella entre GPUs.

La eficiencia también se mide en tokens por vatio y coste por millón de tokens. Para fábricas de IA con límites de potencia, Blackwell entrega 10x más throughput por megavatio respecto a la generación anterior. Además, ha reducido el coste por millón de tokens 15x, abriendo la puerta a despliegues masivos mucho más rentables.

Software que mejora cada semana: de 6K a 30K tokens/s por GPU

Más allá del hardware, la velocidad es el foso defensivo. Tras el lanzamiento de gpt-oss-120b el 5 de agosto, B200 en InferenceMAX v1 ya rendía bien con TensorRT-LLM, pero las optimizaciones sucesivas han duplicado y luego multiplicado los números iniciales. A unos 100 TPS/usuario, el throughput por GPU casi se duplicó en poco tiempo respecto al día de lanzamiento.

Con la versión de TensorRT-LLM de 9 de octubre llegaron las asignaciones de paralelismo EP y DEP, y el rendimiento a 100 TPS/usuario subió hasta 5x frente a la versión inicial, pasando de ~6K a ~30K tokens/s por GPU. Parte de este salto se logra con concurrencias más altas que las que InferenceMAX testea de serie (4-64), lo que demuestra cuánto queda aún por exprimir en configuraciones avanzadas.

El golpe maestro ha sido habilitar decodificación especulativa para gpt-oss-120b con el modelo gpt-oss-120b-Eagle3-v2. Con EAGLE, el throughput por GPU a 100 TPS/usuario se triplica respecto a los resultados publicados, pasando de 10K a 30K tokens/s. Y lo mejor: el coste por millón de tokens a 100 TPS/usuario ha bajado de 0,11$ a 0,02$ en dos meses. Incluso a 400 TPS/usuario, se mantiene en torno a 0,12$, haciendo viables escenarios multiagente y razonamiento complejo.

Economía real: ROI 15x y TCO mínimo con GB200 NVL72

En el modelo de razonamiento DeepSeek-R1, las curvas de InferenceMAX v1 muestran que GB200 NVL72 reduce el coste por millón de tokens de forma contundente frente a H200 a todos los niveles de interactividad. A ~75 TPS/usuario, H200 se sitúa en 1,56$, mientras que GB200 NVL72 cae a poco más de 0,10$, un recorte de 15x. Además, la curva de coste de GB200 permanece plana por más tiempo, permitiendo servir por encima de 100 TPS/usuario sin penalizar el bolsillo.

Para despliegues masivos, esto se traduce en que las “fábricas de IA” pueden atender más usuarios con mejores SLA sin disparar OPEX ni ceder throughput. Sumado al dato de que una inversión de 5 millones puede generar 75 millones en ingresos por tokens, el mensaje es claro: la inferencia es donde la IA devuelve valor cada día y Blackwell saca ventaja por su enfoque full-stack.

Arquitectura que habilita el salto: NVFP4, NVLink 5 y NVLink Switch

La hegemonía de Blackwell no sale de la nada. El stack se basa en codesiseño extremo hardware-software: precisión NVFP4 para eficiencia sin perder exactitud, quinta generación de NVIDIA NVLink y un NVLink Switch que permite tratar 72 GPUs como una macro-GPU, habilitando concurrencia altísima con paralelismo tensorial, de expertos y de datos.

Este enfoque se suma a un cadenciado anual de hardware y a mejoras continuas de software que, por sí solas, han más que duplicado el rendimiento de Blackwell desde su lanzamiento. La integración con TensorRT-LLM, NVIDIA Dynamo, SGLang y vLLM completa el cuadro, apoyado por un ecosistema gigantesco de millones de GPUs, desarrolladores CUDA y cientos de proyectos open source.

MoE a plena potencia: disaggregated serving con GB200, Dynamo y TensorRT-LLM

Las pruebas verificadas demuestran que la combinación de GB200 NVL72, Dynamo y TensorRT-LLM dispara el throughput de modelos MoE como DeepSeek-R1 bajo SLAs muy distintos, dejando atrás a sistemas basados en Hopper. El diseño scale-up del NVL72 interconecta 72 GPUs con NVLink en un dominio único, con hasta 130 TB/s de ancho de banda entre GPUs, clave para rutar tokens de expertos sin cuellos de botella de interconexión tradicional.

  “Mi Computadora Se Apaga Cuando Se Calienta”. 14 Posibles Causas y soluciones

El serving desagregado en Dynamo separa prefill y decode en nodos distintos, optimizando cada fase con repartos de GPU y EP diferentes. Así, la fase de decode, más limitada por memoria, puede explotar EP ancho para los expertos sin frenar a la fase de prefill, que es más intensiva en cómputo.

Para evitar que haya GPUs ociosas en despliegues amplios de EP, TensorRT-LLM vigila la carga de expertos, distribuye los más usados y puede replicarlos para equilibrar. Resultado: utilización alta y estable, con ganancias netas en throughput efectivo.

Colaboración abierta: SGLang, vLLM y FlashInfer

Más allá de Dynamo y TensorRT-LLM, NVIDIA ha co-desarrollado kernels y optimizaciones para Blackwell junto a SGLang y vLLM, entregadas a través de FlashInfer. Hablamos de mejoras en kernels para Prefill y Decode de Atención, Comunicación, GEMM, MNNVL, MLA y MoE, además de optimizaciones de runtime.

En SGLang se han incorporado capacidades de Multi-Token Prediction (MTP) y desagregación para DeepSeek-R1. En vLLM han llegado planificadores asíncronos con solape para reducir overhead del host, fusiones automáticas de grafo y mejoras de rendimiento y funcionalidad para gpt-oss, Llama 3.3 y arquitecturas generales. Todo suma para que Blackwell exprima su eficiencia en los marcos open source más usados.

Comparativas y detalles técnicos adicionales del ecosistema

En análisis técnicos, la arquitectura Blackwell se posiciona como un avance notable para inferencias con baja latencia y alto throughput. Se destaca la ejecución mixta FP8/FP4 en núcleos tensoriales de quinta generación, junto a NVLink 5 con hasta 1,8 TB/s por GPU para comunicación entre múltiples unidades sin estrangulamientos.

En nodos DGX B200 con NVSwitch, se citan configuraciones de hasta ocho GPUs con memoria HBM3e unificada que roza 1,44 TB agregados, y pipelines de inferencia que reflejan el uso real: prefill inicial y decodificación autoregresiva posterior. La suite mide tokens/s, latencia por solicitud y eficiencia en FLOPS, con optimizaciones a nivel de kernel y motores especializados de TensorRT-LLM.

Frente a H100 (Hopper), Blackwell llega a 4x el throughput en Llama 2/3 70B en un nodo similar, atribuible a más núcleos tensoriales y mejoras de ancho de banda de memoria (hasta 5 TB/s por GPU en algunos análisis). También se menciona una escalabilidad lineal en clústeres de cientos de GPUs, manteniendo eficiencias altas en uso de HBM3e y evitando paginaciones costosas a memoria host.

En eficiencia energética, se reportan mejoras de hasta 2,5x frente a H100, con consumos que, en escenarios de carga alta, rondan 700W a 1.000W por GPU según configuración, y picos de rendimiento FP4 que superan claramente la generación anterior en FLOPS por vatio. Herramientas como DCGM y telemetría con Prometheus/Grafana facilitan una observabilidad de primer nivel.

Economía operativa, sostenibilidad y cumplimiento

El foco de InferenceMAX v1 en métricas como tokens por megavatio y coste por millón de tokens no es postureo: condiciona decisiones de capex y opex. Blackwell logra 10x más throughput por MW que la generación previa y ha bajado 15x el coste por millón de tokens, con implicaciones directas en la expansión de servicios y en sostenibilidad.

Se describen prácticas orientadas a energías renovables en sistemas DGX y referencias regulatorias como EU AI Act, GDPR o NIST SP 800-53. Además, Blackwell incorpora Confidential Computing con enclaves seguros y cifrado de memoria para proteger datos en sectores altamente regulados como banca o salud.

Casos de uso: seguridad, IT y hasta blockchain

La combinación de alto rendimiento e interactividad permite pasar de pilotos a sistemas de seguridad en tiempo real, desde análisis de logs a detección de anomalías en redes a escala de petabytes con latencias subsegundo. En IT, los hyperscalers integran Blackwell en ofertas para workloads híbridos con almacenamiento distribuido y redes 5G, apoyándose en RoCE para latencia mínima en el edge, y empresas como ByteDance refuerzan su apuesta por chips de NVIDIA.

Incluso en blockchain, se plantean oráculos de IA descentralizados y aceleración de pruebas ZK en redes como Ethereum o Solana gracias al paralelismo tensorial. Operativamente, se reportan reducciones de hasta 40% en TCO de inferencia por mayor densidad por rack y refrigeración líquida avanzada, manteniendo temperaturas por debajo de 85 °C en carga sostenida.

  Cómo elegir la mejor tarjeta de sonido

Buenas prácticas y desafíos de migración

No todo es alfombra roja: migrar desde Hopper requiere recompilar kernels CUDA y puede destapar bugs en pipelines legacy. Las guías de buenas prácticas de NVIDIA para inferencia con LLM recomiendan profiling con Nsight Systems, detectar cuellos en atención y decodificación y aplicar técnicas de sharding con Megatron-LM para equilibrar cargas entre GPUs.

En seguridad, conviene activar secure boot y protecciones en tiempo de ejecución en TensorRT para evitar inyección de código. En despliegues descentralizados, la latencia se contiene con sidechains y offload de cómputo a GPUs dedicadas, preservando integridad con pruebas criptográficas.

Comunidad, recursos y transparencia

InferenceMAX v1 es un esfuerzo comunitario. Se agradece a AMD (MI355X y CDNA3) por hardware para el proyecto y a NVIDIA por acceso a GB200 NVL72 (vía OCI) y B200. También a los equipos de inferencia y Dynamo, y a proveedores de cómputo como Crusoe, CoreWeave, Nebius, TensorWave, Oracle y TogetherAI por impulsar el open source con recursos reales.

La plataforma publica un dashboard en vivo en inferencemax.ai con resultados actualizados y pone a disposición contenedores y configuraciones para reproducir benchmarks. Dada la velocidad a la que evoluciona el software de IA, las pruebas nocturnas son la forma honesta de mostrar dónde está el rendimiento hoy, no hace meses.

Voces de la industria y oportunidades profesionales

Responsables de infraestructura y científicos reconocen que la distancia entre pico teórico y throughput real la marcan el software de sistemas, las estrategias distribuidas y los kernels de bajo nivel. Por eso valoran benchmarks abiertos y reproducibles que muestren cómo rinden las optimizaciones en distintos hardwares y que iluminen tokens/s, coste por dólar y tokens por megavatio con transparencia.

Además, el proyecto busca talento para un equipo de proyectos especiales. Entre las responsabilidades, destacan:

  • Diseñar y ejecutar benchmarks a gran escala en múltiples proveedores (AMD, NVIDIA, TPU, Trainium, etc.).
  • Construir pipelines CI/CD reproducibles para automatizar las ejecuciones.
  • Asegurar fiabilidad y escalabilidad de los sistemas compartidos con socios de la industria.

Colaboraciones con modelos abiertos y ecosistema

NVIDIA mantiene colaboraciones abiertas con la comunidad y con equipos como OpenAI (gpt-oss 120B), Meta (Llama 3 70B) y DeepSeek AI (DeepSeek R1), además de contribuciones con FlashInfer, SGLang y vLLM. Esto garantiza que los últimos modelos estén optimizados para la mayor infraestructura de inferencia del mundo y que las mejoras de kernel y runtime se integren a escala.

Para las empresas, el marco Think SMART de NVIDIA ayuda a navegar el salto de pilotos a fábricas de IA, afinando decisiones de plataforma, coste por token, SLAs de latencia y utilización según cargas cambiantes. En un mundo que pasa de respuestas one-shot a razonamientos multietapa y uso de herramientas, esta guía se vuelve estratégica.

Nota práctica: algunos contenidos compartidos en redes como X pueden requerir JavaScript habilitado para visualizarse; en caso contrario se mostrará la ayuda y políticas del sitio. Es un detalle menor, pero útil si quieres seguir el pulso de los anuncios en tiempo real.

Quien se pregunte si merece la pena mirarse en detalle las recetas de InferenceMAX v1, que sepa que están abiertas para que cualquiera replique el liderazgo de Blackwell en escenarios de inferencia muy distintos. Es exactamente el tipo de transparencia que acelera el progreso en toda la comunidad.

Tras revisar los datos, las mejoras de software y las colaboraciones abiertas, queda una idea fuerza nítida: la inferencia es el lugar donde la IA convierte rendimiento en negocio a diario. Con curvas de coste planas a altos niveles de interactividad, tokens/s por GPU que escalan con elegancia y un ecosistema que no para de optimizar kernels y runtimes, Blackwell se consolida como plataforma de referencia para quienes quieren construir fábricas de IA eficientes, rápidas y rentables.

que es nvidia project digits-1
Artículo relacionado:
NVIDIA Project DIGITS: La revolución de la IA desde tu escritorio