InferenceMAX 基準測試和 NVIDIA Blackwell 的主導地位

最後更新: 10/10/2025
作者: 艾薩克
  • InferenceMAX v1 透過可重複的隔夜測試來衡量現實世界的表現和經濟性。
  • NVIDIA Blackwell 在每秒代幣數量、每百萬代幣成本和每兆瓦代幣數量方面處於領先地位。
  • 持續軟體(TensorRT-LLM、Dynamo、SGLang、vLLM)推動 5 倍至 15 倍的改善。
  • GB200 NVL72 在密集負載和 MoE 模型中實現了 15 倍的 ROI 和最低的 TCO。

InferenceMAX AI 基準測試

關於推理表現的討論 IA 已經加速,有充分的理由: InferenceMAX v1 透過可驗證的最新數據帶來了秩序 他們不看重原始速度,而是關注實際經濟效益。在這種背景下,NVIDIA 的 Blackwell 平台不僅引領了產業潮流, 以前所未有的效率和每代幣成本橫掃了它.

簡而言之,我們正在談論一個時代的變遷: 從“運行多少”到“每歐元和每瓦生產多少產出”。 組合 硬件 Blackwell(B200 和 GB200 NVL72)、第五代 NVLink 互連、低精度 NVFP4 以及正在進行的軟體最佳化(TensorRT-LLM、Dynamo、SGLang、vLLM) 提高代幣/秒、每百萬代幣成本和有效投資回報率的標準 在現實生活中。

什麼是 InferenceMAX v1 以及它為何重要

業界最大的抱怨是 傳統的基準很快就會過時,並且往往傾向於不切實際的配置。. InferenceMAX v1 打破了這一現狀:它是一個基準 開源、自動化、夜間執行 根據 Apache 2.0 許可,每天重新評估流行的框架和模型以捕捉真實的軟體進度。

對於每個模型和硬體組合,系統都會執行掃描 張量並行大小和並發性,並具有平衡吞吐量和延遲的性能曲線。此外, 智商測驗結果每日發布 並測試了多個框架(SGLang、TensorRT-LLM 和 vLLM),讓我們了解最近的最佳化情況 近乎即時地移動帕累托前沿.

在方法論層面,測驗涵蓋 具有專家並行性 (EP) 的單節點和多節點,並包括可變的輸入/輸出序列長度(80%-100% ISL/OSL 組合)來模擬 大量的推理、文件處理、總結和聊天結果是延遲、吞吐量、批次大小和輸入/輸出比率的連續快照, 代表實際營運經濟效益,而不僅僅是理論.

布萊克韋爾領先:績效、效率和規模經濟

已公佈的數據幾乎不容置疑: NVIDIA Blackwell 在推理效能和效率方面超越 InferenceMAX v1 在整個負載範圍內。與 Hopper 世代 (HGX H200) 相比,升級到 B200 和 GB200 NVL72 意味著 每瓦運算能力和記憶體頻寬的數量級提升除了 每百萬代幣成本大幅下降.

具體來說,該系統 GB200 NVL72 實現 15 倍 ROI:投資 5 萬美元可以產生 75萬代幣收入這些數據並非會計技巧:它回應了 NVFP4 的組合 對於原生低精度, NVLink 和 NVLink 交換器第五代 以及成熟度 TensorRT-LLM 和 NVIDIA Dynamo 在軟體堆疊中。

歷史在每個代幣成本上重演。在 gpt-oss 中, B200 優化已將成本降低至每百萬代幣 2 美分,短短兩個月內就下降了5倍。這一趨勢得益於持續的軟體改進, 徹底改變新用例的經濟可行性.

捕捉生產現實的方法

InferenceMAX v1 不僅僅測量每秒的令牌數。 在帕累托邊界上映射吞吐量與延遲 這有助於根據互動性 SLA 和 TCO 目標決定何時值得營運。關鍵在於如何 Blackwell 在整個系列中保持優勢,並不在單一的最佳角落。

為了提供代表性,測試包括 出席人數從 4 人到 64 人 (以及補充分析中超越這些限制的情境),各種 EP 和 DEP 設定 y 參考模型 在社區中,從 gpt-oss 120B 到 Llama 3.3 70B 或 DeepSeek-R1。全部帶有 開放儲存庫 以及可重複的配方,以便任何人都可以驗證結果。

純效能:每 GPU 每秒令牌數和互動性

Blackwell B200 的各項數據在一年前看來簡直是科幻小說,但它卻引領了產業潮流。憑藉最新的 NVIDIA TensorRT-法學碩士據報道 每個 GPU 每秒 60.000 個令牌 而且 每位使用者每秒 1.000 個令牌 在 gpt-oss 中,保持互動性 不會犧牲體驗.

  英特爾承諾 200 月改進 Core Ultra XNUMXS 處理器

在密集模型中,例如 羊駝 3.3 70B,激活推理中的所有參數,Blackwell 在 InferenceMAX v1 中實現 每個 GPU 每秒 10.000 個令牌,每個使用者每秒 50 TPS,比 H200 提高了 4 倍以上。這項改進得益於 NVFP4,第五代 Tensor Core 和頻寬 1.800 GB/s 雙向 NVLink,避免GPU之間的瓶頸。

效率也透過以下方式衡量 每瓦代幣數量和每百萬代幣成本. 對於功率受限的 AI 工廠,Blackwell 提供 每兆瓦吞吐量增加 10 倍 與上一代相比。此外,它還 將每百萬代幣的成本降低了 15 倍,為更具成本效益的大規模部署打開了大門。

每週改進的軟體:每個 GPU 從 6K 到 30K 令牌/秒

除了硬體之外, 速度是防禦的壕溝。繼 8 月 5 日發布 gpt-oss-120b 之後,InferenceMAX v1 上的 B200 已經在 TensorRT-LLM 上表現良好,但 連續的優化已經翻倍,然後成倍增加 初始數據。 GPU 吞吐量約為 100 TPS/用戶 短時間內幾乎翻了一番 關於發布日期。

使用 TensorRT-LLM 版本的 十月9 並行性任務已到達 EP 和 DEP,效能達到 100 TPS/用戶 與初始版本相比增加了 5 倍,從每 GPU 每秒約 6K 令牌增加到每秒約 30K 令牌。這一飛躍部分得益於 出席率更高 比 InferenceMAX 測試的標準(4-64)要高,這表明 還剩下多少可以擠 在高級設定中。

關鍵在於 推測解碼 適用於 gpt-oss-120b 型號 GPT-OSS-120B-Eagle3-v2使用 EAGLE,GPU 吞吐量為 100 TPS/用戶 三元組 就已發表的結果而言, 10K 到 30K 代幣/秒最好的是: 每百萬代幣的成本 100 TPS/用戶已從 0,11美元至0,02美元 兩個月內。即使達到 400 TPS/用戶,它仍然 0,12 $,使可行 多智能體場景和複雜推理.

實質經濟:GB200 NVL72 的 15 倍投資報酬率和最低的 TCO

在推理模型中 DeepSeek-R1,InferenceMAX v1 曲線顯示 GB200 NVL72 降低每百萬代幣的成本 壓倒性地擊敗了H200 在各個層面的互動性方面。 H200 的 TPS 約為 75/用戶,排名 1,56 $,而 GB200 NVL72 則跌至略高於 0,10 $15 倍裁剪。此外,GB200的成本曲線 保持平坦的時間更長,允許為每位用戶提供超過 100 TPS 的服務,而不會對錢包造成損失。

對於大規模部署,這意味著 「AI工廠」可以透過更好的SLA服務更多用戶 無需觸發 OPEX 或放棄吞吐量。此外,投資 5萬可以產生75萬的代幣收入,訊息很明確: 推理是人工智慧每天回報價值的地方 而 Blackwell 則利用了其全端方法。

實現飛躍的架構:NVFP4、NVLink 5 和 NVLink Switch

布萊克威爾的霸權並非憑空而來。堆疊基於 極端硬體-軟體協同設計: 精確 NVFP4 為了提高效率而不損失準確性, 第五代 NVIDIA NVLinkNVLink 交換機 可以治療 72 個 GPU 作為巨集 GPU,使 出席率很高 具有張量、專家和數據並行性。

這種方法增加了 年度硬體節奏 已經持續不斷的軟體改進, 自推出以來,Blackwell 的業績成長了一倍多. 集成 TensorRT-LLM、NVIDIA Dynamo、SGLang 和 vLLM 完成圖片,由 巨大的生態系統 數百萬 GPU、CUDA 開發人員和數百個開源專案。

全力發揮 MoE 的功能:使用 GB200、Dynamo 和 TensorRT-LLM 進行分解服務

經過驗證的測試表明 GB200 NVL72、Dynamo 和 TensorRT-LLM 提高 MoE 模型的吞吐量,例如 DeepSeek-R1 在截然不同的 SLA 下,將基於 Hopper 的系統拋在身後。 NVL72 的縱向擴充設計 透過 NVLink 互連 72 個 GPU 在單一網域上,最多 130 TB/s 頻寬 GPU 之間,關鍵 無障礙地路由專家令牌 傳統互連互通。

  如何修復 Windows 中輸入錯誤字元的按鍵

El 分解服務 Dynamo 將預填和解碼分離到單獨的節點,並透過以下方式優化每個階段 不同的 GPU 和 EP 分佈。因此,解碼階段受記憶體限制較大,可以利用 EP寬度 對於專家來說,這不會減慢計算量更大的預填階段。

為了防止 空閒 GPU 在廣泛的 EP 部署中,TensorRT-LLM 監控專家的負載,分發最常用的,可以 複製它們 達到平衡。結果: 利用率高且穩定,現金吞吐量淨成長。

開放協作:SGLang、vLLM 和 FlashInfer

除了 Dynamo 和 TensorRT-LLM 之外,NVIDIA 還 為 Blackwell 共同開發核心和最佳化 與 SGLang 和 vLLM 一起,透過 FlashInfer。我們討論核心的改進 注意力、溝通、GEMM、MNNVL、MLA 和 MoE 的預填和解碼,以及運行時優化。

SGLang 已整合以下功能 多標記預測(MTP) 以及 DeepSeek-R1 的分解。在 vLLM 中,它們已經 具有重疊的非同步調度器 為了減少主機開銷, 自動圖形合併 以及性能和功能改進 gpt-oss、Llama 3.3 和通用架構. 一切都加起來,這樣 Blackwell 將其效率融入最廣泛使用的開源框架中.

生態系的比較和其他技術細節

在技​​術分析中,Blackwell 架構被定位為 低延遲、高吞吐量的推理。它強調 混合 FP8/FP4 執行 第五代張量核心,以及 NVLink 5,最高可達 每個 GPU 1,8 TB/s 用於多個單元之間的通信 沒有勒死.

在配備 NVSwitch 的 DGX B200 節點上,最多可配置 八個具有統一 HBM3e 記憶體的 GPU 相當於增加了近 1,44 TB,推理管道 反映實際使用情況:初始預填充和後續自回歸解碼。該套件測量 每秒令牌數、每個請求的延遲和 FLOPS 效率,具有核心級優化和專門的 TensorRT-LLM 引擎。

面對 H100 (Hopper),Blackwell 到達 吞吐量提高 4 倍 在 Llama 2/3 70B 中,類似的節點,歸因於更多的張量核心和改進 記憶體頻寬(在某些基準測試中每個 GPU 高達 5 TB/s)。它還提到了 線性可擴展性 在數百個 GPU 的叢集中,保持高效地利用 HBM3e 並避免昂貴的主機記憶體分頁。

在能源效率方面, 相較於 H100 提升 2,5 倍在高負載情況下,功耗約為 每個 GPU 700W 至 1.000W 根據配置,FP4 性能峰值明顯超過上一代 每瓦 FLOPS。 類似的工具 直流GM 並使用 Prometheus/Grafana 進行遙測, 一級可觀測性.

營運經濟性、永續性和合規性

InferenceMAX v1 關注的指標包括 每兆瓦代幣數量和每百萬代幣成本 這不是姿態,而是決定決策 資本支出和營運支出. 布萊克威爾實現 每兆瓦吞吐量增加 10 倍 上一代 將每百萬代幣的成本降低了 15 倍,對服務業的擴張有直接影響, 可持續性.

旨在 DGX 系統中的再生能源 以及監管參考,例如 歐盟人工智慧法案、GDPR 或 NIST SP 800-53。此外,Blackwell 還採用了 機密計算 使用安全區域和記憶體加密來保護跨扇區的數據 嚴格監管 例如銀行業或醫療保健業。

使用案例:安全、IT 甚至區塊鏈

的結合 高效能和互動性 讓你從飛行員變成 即時安全系統,從分析 日誌 網路異常偵測 PB 級數據,亞秒延遲在 IT 領域,超大規模企業正在將 Blackwell 整合到混合工作負載產品中, 存儲 分散式和5G網絡,倚靠 羅塞 為了最大限度地減少邊緣延遲,像 位元組跳動加強承諾 採用 NVIDIA 晶片。

即使在區塊鏈中,它們也 去中心化的人工智慧預言機 和加速 ZK 測試 由於張量並行性,以太坊或 Solana 等網路的效能得以提升。在操作上, 高達 40% 的 TCO 由於每個機架的密度更高和先進的液體冷卻,保持溫度 低於 85°C 在持續負載下。

  如何使用 OCCT 對 CPU、GPU、RAM 和 PSU 進行穩定性測試

良好實踐與遷移挑戰

並非全是紅毯:從 Hopper 遷移需要 重新編譯 CUDA 內核 並能發現傳統流程的錯誤。 NVIDIA 的 LLM 推理最佳實踐指南推薦 使用 Nsight Systems 進行分析,檢測頸部 注意力和解碼 並運用技術 使用 Megatron-LM 進行分片 平衡 GPU 之間的負載。

出於安全原因,建議激活 安全啟動 TensorRT 中的執行時間保護措施可防止 程式碼注入在分散式部署中,延遲被控制在 側鏈 並將計算卸載到專用 GPU,保持完整性 密碼證明.

社區、資源和透明度

InferenceMAX v1 是社區努力的成果。感謝 AMD(MI355X 和 CDNA3) 為專案提供硬件,NVIDIA 提供存取權限 GB200 NVL72(透過 OCI)和 B200. 也感謝 推理和 Dynamo以及計算提供者,例如 Crusoe、CoreWeave、Nebius、TensorWave、Oracle 和 TogetherAI 用真實的資源來推動開源。

該平台發布 inferencemax.ai 上的即時儀表板 提供更新的結果並提供 容器和配置 重現基準測試。有鑑於人工智慧軟體的發展速度, 夜間測試 它們以誠實的方式展示了當前的表現,而不是幾個月前的表現。

行業聲音和職業機會

基礎設施官員和科學家承認, 理論峰值和實際吞吐量 他們標記它 系統軟體、分散式策略和 低階內核這就是他們重視基準的原因 開放且可複製 展示優化在不同硬體上的表現,以及 點亮代幣數量、每美元成本和每兆瓦代幣數量 具有透明度。

此外,該專案正在尋找人才 特別專案團隊在這些職責中,以下是突出的:

  • 設計和執行大規模基準測試 跨多個供應商(AMD、NVIDIA、TPU、Trainium 等)。
  • 建立可重複的 CI/CD 管道 實現自動化執行。
  • 安全 可靠性 和可擴展性 與產業合作夥伴共享的系統。

與開放模型和生態系統的合作

NVIDIA 與社群以及以下團隊保持開放的合作: OpenAI (gpt-oss 120B)、Meta(Flame 3 70B)和 深度搜尋 AI(深尋R1),除了貢獻 FlashInfer、SGLang 和 vLLM。這確保了 最新型號經過最佳化 打造世界上最大的推理基礎設施以及核心和運行時改進 按比例整合.

對於公司而言,該框架 SMART思維 NVIDIA 協助實現從駕駛員到 人工智慧工廠、微調平台決策, 每個代幣的成本、延遲和使用率 SLA 取決於不斷變化的負載。在一個從一次性響應轉向 多階段推理和工具使用,本指南變得具有戰略意義。

實用說明:在 X 等網路上分享的某些內容可能需要 已啟用 JavaScript 顯示;否則, 援助和政策 網站的。這只是一個小細節,但如果您想即時追蹤公告,它很有用。

對於那些想知道是否值得仔細研究 InferenceMAX v1 配方的人來說,請知道 任何人都可以複製布萊克威爾的領導力 在非常不同的推理場景中。正是這種透明度加速了整個社區的進步。

在回顧了數據、軟體改進和開放合作之後,一個關鍵思想仍然清晰: 推理是人工智慧將性能轉化為日常業務的地方。. 在高互動水準下,成本曲線平坦, 每個 GPU 的 token/s 可優雅擴展 以及一個永不停止優化核心和運行時的生態系統,Blackwell 將自己鞏固為那些想要構建 高效率、快速、獲利的AI工廠.

什麼是 nvidia 專案 digitals-1
相關文章:
NVIDIA 數位專案:桌面 AI 革命