- InferenceMAX v1 mengukur prestasi dan ekonomi dunia sebenar dengan ujian semalaman yang boleh dihasilkan semula.
- NVIDIA Blackwell mendahului dalam token/s, kos setiap juta token dan token setiap MW.
- Perisian berterusan (TensorRT-LLM, Dynamo, SGLang, vLLM) memacu peningkatan 5x-15x.
- GB200 NVL72 mencapai 15x ROI dan TCO minimum dalam beban padat dan model MoE.

Perbualan tentang prestasi inferens dalam IA telah dipercepatkan, dan dengan alasan yang kukuh: InferenceMAX v1 telah membawa susunan dengan data yang boleh disahkan dan terkini yang melihat di luar kelajuan mentah untuk menilai ekonomi sebenar. Dalam konteks ini, platform Blackwell NVIDIA bukan sahaja menetapkan kadar, telah menyapunya dengan kecekapan yang tidak pernah berlaku sebelum ini dan hasil kos setiap token.
Ringkasnya, kita bercakap tentang perubahan era: daripada "berapa banyak ia berjalan" kepada "berapa banyak ia menghasilkan setiap euro dan setiap watt dalam pengeluaran". Menggabungkan perkakasan Blackwell (B200 dan GB200 NVL72), sambungan NVLink generasi ke-5, NVFP4 berketepatan rendah dan pengoptimuman perisian berterusan (TensorRT-LLM, Dynamo, SGLang, vLLM) Menaikkan bar dalam token/s, kos setiap juta token dan ROI yang berkesan dalam senario kehidupan sebenar.
Apakah InferenceMAX v1 dan mengapa ia penting
Aduan terbesar daripada industri ialah itu Penanda aras tradisional menjadi lapuk dengan cepat dan sering memihak kepada konfigurasi yang tidak realistik.. InferenceMAX v1 putus dengan itu: ia adalah penanda aras sumber terbuka, automatik dan dengan pelaksanaan setiap malam di bawah lesen Apache 2.0 yang menilai semula rangka kerja dan model popular setiap hari untuk menangkap kemajuan perisian sebenar.
Untuk setiap gabungan model dan perkakasan, sistem melakukan sapuan saiz selari tensor dan konkurensi, dan menampilkan keluk prestasi yang mengimbangi daya tampung dan kependaman. Selain itu, Keputusan IQ diterbitkan setiap hari dan berbilang rangka kerja diuji (SGLang, TensorRT-LLM dan vLLM), membolehkan kami melihat cara pengoptimuman terkini gerakkan sempadan Pareto dalam hampir masa nyata.
Pada peringkat metodologi, ujian meliputi nod tunggal dan berbilang nod dengan Paralelisme Pakar (EP), dan sertakan panjang jujukan input/output berubah (80%-100% gabungan ISL/OSL) untuk meniru beban sebenar penaakulan, pemprosesan dokumen, ringkasan dan sembangHasilnya ialah gambaran berterusan kependaman, pemprosesan, saiz kelompok dan nisbah input/output itu mewakili ekonomi operasi sebenar, bukan hanya teori.
Blackwell mendahului: prestasi, kecekapan dan skala ekonomi
Data yang diterbitkan meninggalkan sedikit ruang untuk keraguan: NVIDIA Blackwell Menyapu InferenceMAX v1 dalam Prestasi dan Kecekapan Inferens merentasi keseluruhan julat beban. Berbanding dengan generasi Hopper (HGX H200), lonjakan ke B200 dan GB200 NVL72 bermakna Susunan peningkatan magnitud dalam pengiraan-per-watt dan lebar jalur memori, sebagai tambahan kepada penurunan drastik dalam kos setiap juta token.
Dari segi konkrit, sistem GB200 NVL72 mencapai 15x ROI: pelaburan sebanyak 5 juta dolar boleh menjana 75 juta hasil tokenData ini bukan helah perakaunan: ia bertindak balas kepada gabungan NVFP4 untuk ketepatan rendah asli, Suis NVLink dan NVLink Generasi Ke-5 dan kematangan TensorRT-LLM dan NVIDIA Dynamo dalam timbunan perisian.
Sejarah berulang dengan kos setiap token. Dalam gpt-oss, the Pengoptimuman B200 telah mengurangkan kos kepada dua sen bagi setiap juta token, penurunan 5x ganda dalam masa dua bulan sahaja. Trend ini, disokong oleh penambahbaikan perisian yang berterusan, mengubah sepenuhnya daya maju ekonomi kes penggunaan baharu.
Metodologi yang menangkap realiti pengeluaran
InferenceMAX v1 bukan sahaja mengukur token sesaat. Pukulan peta berbanding kependaman pada sempadan Pareto yang membantu menentukan pada titik mana ia berbaloi untuk beroperasi, menurut objektif SLA dan TCO interaktiviti. Perkara yang berkaitan ialah bagaimana Blackwell mengekalkan kelebihan di seluruh julat, bukan dalam satu sudut optimum.
Untuk memberikan keterwakilan, ujian termasuk kehadiran dari 4 hingga 64 orang (dan senario di luar had ini dalam analisis pelengkap), pelbagai Tetapan EP dan DEP y model rujukan dalam komuniti, daripada gpt-oss 120B kepada Llama 3.3 70B atau DeepSeek-R1. Semua dengan repositori terbuka dan resipi boleh dihasilkan semula supaya sesiapa sahaja boleh mengesahkan keputusan.
Prestasi tulen: token/s setiap GPU dan interaktiviti
Blackwell B200 menetapkan kadar dengan nombor yang kelihatan seperti fiksyen sains setahun yang lalu. Dengan timbunan terkini NVIDIA TensorRT-LLM, dilaporkan 60.000 token sesaat setiap GPU dan naik 1.000 token sesaat bagi setiap pengguna dalam gpt-oss, mengekalkan interaktiviti yang tidak mengorbankan pengalaman.
Dalam model padat seperti Llama 3.3 70B, yang mengaktifkan semua parameter dalam inferens, Blackwell capai dalam InferenceMAX v1 10.000 token/s setiap GPU pada 50 TPS/pengguna, lebih daripada 4x berbanding H200. Penambahbaikan ini disokong oleh NVFP4, teras Tensor generasi kelima dan lebar jalur bagi 1.800 GB/s dwiarah NVLink, mengelakkan kesesakan antara GPU.
Kecekapan juga diukur dalam Token setiap watt dan kos setiap juta token. Untuk kilang AI dengan had kuasa, Blackwell menyampaikan 10x lebih daya pemprosesan setiap megawatt berbanding generasi sebelumnya. Di samping itu, ia mempunyai mengurangkan kos setiap juta token sebanyak 15x, membuka pintu kepada penggunaan besar-besaran yang lebih kos efektif.
Perisian yang bertambah baik setiap minggu: daripada 6K hingga 30K token/s setiap GPU
Di luar perkakasan, kelajuan adalah parit pertahanan. Berikutan keluaran gpt-oss-120b pada 5 Ogos, B200 pada InferenceMAX v1 telah menunjukkan prestasi yang baik dengan TensorRT-LLM, tetapi Pengoptimuman berturut-turut telah berganda dan kemudian berganda Nombor awal. Pada kira-kira 100 TPS/pengguna, pemprosesan GPU hampir dua kali ganda dalam masa yang singkat berkenaan dengan hari pelancaran.
Dengan versi TensorRT-LLM Oktober 9 Tugasan selari tiba EP dan DEP, dan prestasi pada 100 TPS/pengguna meningkat sehingga 5x berbanding versi awal, daripada ~6K kepada ~30K token/s setiap GPU. Sebahagian daripada lompatan ini dicapai dengan kehadiran yang lebih tinggi daripada ujian InferenceMAX sebagai standard (4-64), yang ditunjukkan berapa banyak yang masih tinggal untuk diperah dalam tetapan lanjutan.
Pukulan induk adalah untuk membolehkan penyahkodan spekulatif untuk gpt-oss-120b dengan model gpt-oss-120b-Eagle3-v2Dengan EAGLE, daya pemprosesan GPU pada 100 TPS/pengguna tiga kali ganda berkenaan dengan keputusan yang diterbitkan, bermula dari 10K hingga 30K token/sDan yang terbaik: yang kos setiap juta token pada 100 TPS/pengguna telah menurun daripada $0,11 hingga $0,02 dalam dua bulan. Walaupun pada 400 TPS/pengguna, ia masih ada 0,12 $, menjadikan berdaya maju senario pelbagai ejen dan penaakulan yang kompleks.
Ekonomi sebenar: 15x ROI dan TCO minimum dengan GB200 NVL72
Dalam model penaakulan DeepSeek-R1, lengkung InferenceMAX v1 menunjukkan bahawa GB200 NVL72 mengurangkan kos setiap juta token mengatasi H200 pada semua peringkat interaktiviti. Pada ~75 TPS/pengguna, H200 berada pada kedudukan 1,56 $, manakala GB200 NVL72 jatuh hampir tamat 0,10 $, yang 15x tanaman. Di samping itu, keluk kos GB200 kekal rata lebih lama, membenarkan penyajian melebihi 100 TPS/pengguna tanpa menghukum poket.
Untuk penempatan besar-besaran, ini diterjemahkan kepada "Kilang AI" boleh memberi perkhidmatan kepada lebih ramai pengguna dengan SLA yang lebih baik tanpa mencetuskan OPEX atau melepaskan daya pengeluaran. Ditambah kepada fakta bahawa pelaburan sebanyak 5 juta boleh menjana 75 juta hasil token, mesejnya jelas: Inferens ialah tempat AI mengembalikan nilai setiap hari dan Blackwell mengambil kesempatan daripada pendekatan timbunan penuhnya.
Seni bina yang membolehkan lompatan: NVFP4, NVLink 5 dan NVLink Switch
Hegemoni Blackwell tidak datang begitu sahaja. Timbunan adalah berdasarkan reka bentuk bersama perisian perkakasan yang melampau: ketepatan NVFP4 untuk kecekapan tanpa kehilangan ketepatan, Generasi kelima NVIDIA NVLink dan Suis NVLink yang membolehkan untuk merawat 72 GPU sebagai makro-GPU, membolehkan kehadiran yang sangat tinggi dengan tensor, pakar dan selari data.
Pendekatan ini menambah a irama perkakasan tahunan penambahbaikan perisian berterusan yang, dengan sendirinya, mempunyai lebih daripada dua kali ganda prestasi Blackwell sejak pelancarannya. Integrasi dengan TensorRT-LLM, NVIDIA Dynamo, SGLang dan vLLM lengkapkan gambar, disokong oleh a ekosistem gergasi daripada berjuta-juta GPU, pembangun CUDA dan beratus-ratus projek sumber terbuka.
KPM dengan kuasa penuh: sajian terpisah dengan GB200, Dynamo dan TensorRT-LLM
Ujian yang disahkan menunjukkan bahawa gabungan daripada GB200 NVL72, Dynamo dan TensorRT-LLM meningkatkan daya pengeluaran model MoE seperti DeepSeek-R1 di bawah SLA yang sangat berbeza, meninggalkan sistem berasaskan Hopper. Reka bentuk skala NVL72 menghubungkan 72 GPU dengan NVLink dalam satu domain, dengan sehingga 130 TB/s lebar jalur antara GPU, kunci kepada token pakar laluan tanpa kesesakan perhubungan tradisional.
El hidangan berpecah-belah Dynamo memisahkan praisi dan menyahkod ke nod yang berasingan, mengoptimumkan setiap fasa dengan pengagihan GPU dan EP yang berbeza. Oleh itu, fasa penyahkod, lebih terhad oleh ingatan, boleh mengeksploitasi Lebar EP untuk pakar tanpa memperlahankan fasa praisi, yang lebih intensif dari segi pengiraan.
Untuk mengelakkan wujudnya GPU terbiar dalam penggunaan EP yang luas, TensorRT-LLM memantau pemuatan pakar, mengedarkan yang paling banyak digunakan dan boleh meniru mereka untuk mengimbangi. Keputusan: penggunaan yang tinggi dan stabil, dengan keuntungan bersih dalam pengeluaran tunai.
Kerjasama terbuka: SGLang, vLLM dan FlashInfer
Di luar Dynamo dan TensorRT-LLM, NVIDIA mempunyai kernel dan pengoptimuman yang dibangunkan bersama untuk Blackwell bersama SGLang dan vLLM, dihantar melalui FlashInfer. Kami bercakap tentang penambahbaikan dalam kernel untuk Praisi dan Nyahkod untuk Perhatian, Komunikasi, GEMM, MNNVL, MLA dan MoE, sebagai tambahan kepada pengoptimuman masa jalan.
SGLang telah menggabungkan keupayaan Ramalan Berbilang Token (MTP) dan pengasingan untuk DeepSeek-R1. Dalam vLLM mereka telah tiba penjadual tak segerak dengan pertindihan untuk mengurangkan overhed hos, graf automatik bercantum dan peningkatan prestasi dan fungsi untuk gpt-oss, Llama 3.3 dan seni bina umum. Segala-galanya menambah sehingga Blackwell memerah kecekapannya ke dalam rangka kerja sumber terbuka yang paling banyak digunakan.
Perbandingan dan butiran teknikal tambahan ekosistem
Dalam analisis teknikal, seni bina Blackwell diletakkan sebagai kemajuan yang ketara untuk inferens dengan kependaman rendah dan daya pemprosesan yang tinggi. Ia menyerlahkan pelaksanaan FP8/FP4 bercampur pada teras tensor generasi kelima, bersama-sama dengan NVLink 5 dengan sehingga 1,8 TB/s setiap GPU untuk komunikasi antara beberapa unit tanpa cekik.
Pada nod DGX B200 dengan NVSwitch, konfigurasi sehingga lapan GPU dengan memori HBM3e bersatu yang berjumlah hampir 1,44 TB ditambah, dan inferens saluran paip itu mencerminkan penggunaan sebenar: praisi awal dan penyahkodan autoregresif seterusnya. Suite mengukur Token/s, kependaman setiap permintaan dan kecekapan dalam FLOPS, dengan pengoptimuman peringkat kernel dan enjin TensorRT-LLM khusus.
Menghadap H100 (Hopper), Blackwell tiba di 4x daya pengeluaran dalam Llama 2/3 70B pada nod yang serupa, dikaitkan dengan lebih banyak teras tensor dan penambahbaikan dalam Jalur lebar memori (sehingga 5 TB/s setiap GPU dalam beberapa penanda aras). Ia juga menyebut a kebolehskalaan linear dalam kelompok ratusan GPU, mengekalkan kecekapan tinggi dalam penggunaan HBM3e dan mengelakkan paging mahal untuk mengehos ingatan.
Dalam kecekapan tenaga, penambahbaikan sehingga 2,5x lwn. H100, dengan penggunaan yang, dalam senario beban tinggi, ada 700W hingga 1.000W setiap GPU bergantung pada konfigurasi, dan kemuncak prestasi FP4 yang jelas melebihi generasi sebelumnya dalam FLOPS setiap watt. Alat seperti DCGM dan telemetri dengan Prometheus/Grafana memudahkan a kebolehmerhatian peringkat pertama.
Ekonomi operasi, kemampanan dan pematuhan
Fokus InferenceMAX v1 pada metrik seperti Token setiap megawatt dan kos setiap juta token Ia bukan posturing: ia menetapkan keputusan capex dan opex. Blackwell mencapainya 10x lebih daya pemprosesan bagi setiap MW yang generasi terdahulu dan mempunyai menurunkan kos setiap juta token sebanyak 15x, dengan implikasi langsung untuk pengembangan perkhidmatan dan kemampanan.
Amalan yang bertujuan tenaga boleh diperbaharui dalam sistem DGX dan rujukan peraturan seperti Akta AI EU, GDPR atau NIST SP 800-53. Di samping itu, Blackwell menggabungkan Pengkomputeran Sulit dengan enklaf selamat dan penyulitan memori untuk melindungi data merentas sektor sangat dikawal selia seperti perbankan atau kesihatan.
Kes penggunaan: keselamatan, IT dan juga blockchain
Gabungan prestasi tinggi dan interaktiviti membolehkan anda pergi dari juruterbang ke sistem keselamatan masa nyata, daripada analisis terhadap balak pengesanan anomali dalam rangkaian skala petabyte dengan latensi subsaatDalam IT, hyperscaler menyepadukan Blackwell ke dalam tawaran untuk beban kerja hibrid dengan penyimpanan rangkaian teragih dan 5G, bergantung pada RoCE untuk kependaman minimum di tepi, dan syarikat suka ByteDance mengukuhkan komitmennya oleh cip NVIDIA.
Walaupun dalam blockchain, mereka dinaikkan oracle AI terdesentralisasi dan pecutan ujian ZK pada rangkaian seperti Ethereum atau Solana terima kasih kepada tensor parallelism. Secara operasi, pengurangan dalam sehingga 40% dalam TCO inferens disebabkan oleh ketumpatan yang lebih tinggi setiap rak dan penyejukan cecair lanjutan, mengekalkan suhu bawah 85°C di bawah beban yang berterusan.
Amalan baik dan cabaran penghijrahan
Ini bukan semua permaidani merah: berhijrah dari Hopper memerlukan menyusun semula kernel CUDA dan boleh mendedahkan pepijat dalam saluran paip warisan. Garis panduan amalan terbaik NVIDIA untuk inferens dengan saranan LLM Pemprofilan dengan Sistem Nsight, mengesan leher masuk perhatian dan penyahkodan dan mengaplikasikan teknik sharding dengan Megatron-LM untuk mengimbangi beban antara GPU.
Atas sebab keselamatan, adalah dinasihatkan untuk mengaktifkan but selamat dan perlindungan masa jalan dalam TensorRT untuk mencegah suntikan kodDalam penyebaran terdesentralisasi, kependaman terkandung dengan sidechains dan pemuatan pengiraan kepada GPU khusus, memelihara integriti dengan bukti kriptografi.
Komuniti, sumber dan ketelusan
InferenceMAX v1 ialah usaha komuniti. Terima kasih kepada AMD (MI355X dan CDNA3) untuk perkakasan untuk projek dan NVIDIA untuk akses kepada GB200 NVL72 (melalui OCI) dan B200. Juga kepada pasukan inferens dan Dinamo, dan pembekal pengkomputeran seperti Crusoe, CoreWeave, Nebius, TensorWave, Oracle dan TogetherAI untuk mempromosikan sumber terbuka dengan sumber sebenar.
Platform menerbitkan a Papan pemuka langsung di inferencemax.ai dengan hasil kemas kini dan disediakan bekas dan konfigurasi untuk menghasilkan semula tanda aras. Memandangkan kelajuan perisian AI berkembang, ujian malam Mereka adalah cara yang jujur untuk menunjukkan prestasi hari ini, bukan bulan lalu.
Suara industri dan peluang kerjaya
Pegawai infrastruktur dan saintis mengakui bahawa jarak antara kemuncak teori dan daya pengeluaran sebenar mereka menandakannya perisian sistem, strategi teragih dan biji aras rendahItulah sebabnya mereka menghargai penanda aras terbuka dan boleh dihasilkan semula yang menunjukkan prestasi pengoptimuman pada perkakasan yang berbeza dan itu menyalakan token/s, kos setiap dolar dan token setiap megawatt dengan ketelusan.
Selain itu, projek ini sedang mencari bakat untuk a pasukan projek khasDi antara tanggungjawab, perkara berikut menonjol:
- Reka bentuk dan laksanakan penanda aras berskala besar merentas berbilang vendor (AMD, NVIDIA, TPU, Trainium, dll.).
- Bina saluran paip CI/CD yang boleh dihasilkan semula untuk mengautomasikan pelaksanaan.
- Selamat kebolehpercayaan dan kebolehskalaan sistem yang dikongsi dengan rakan kongsi industri.
Kerjasama dengan model dan ekosistem terbuka
NVIDIA mengekalkan kerjasama terbuka dengan komuniti dan dengan pasukan seperti OpenAI (gpt-oss 120B), Meta (Llama 3 70B) dan DeepSeek AI (DeepSeek R1), sebagai tambahan kepada sumbangan dengan FlashInfer, SGLang dan vLLM. Ini memastikan bahawa model terkini dioptimumkan untuk infrastruktur inferens terbesar di dunia dan penambahbaikan kernel dan masa jalan mengintegrasikan pada skala.
Bagi syarikat, rangka kerja Fikir PINTAR NVIDIA membantu menavigasi lompatan dari pemandu ke kilang AI, memperhalusi keputusan platform, kos setiap token, kependaman dan SLA penggunaan berdasarkan perubahan beban. Dalam dunia yang bergerak daripada respons satu pukulan kepada penaakulan pelbagai peringkat dan penggunaan alat, panduan ini menjadi strategik.
Nota praktikal: sesetengah kandungan yang dikongsi pada rangkaian seperti X mungkin memerlukan JavaScript didayakan untuk dipaparkan; jika tidak, yang bantuan dan dasar daripada tapak tersebut. Ia adalah butiran kecil, tetapi berguna jika anda ingin menjejaki pengumuman dalam masa nyata.
Bagi sesiapa yang tertanya-tanya sama ada patut melihat lebih dekat resipi InferenceMAX v1, ketahui bahawa terbuka untuk sesiapa sahaja untuk meniru kepimpinan Blackwell dalam senario inferens yang sangat berbeza. Ia betul-betul jenis ketelusan yang mempercepatkan kemajuan merentas komuniti.
Selepas menyemak data, penambahbaikan perisian dan kerjasama terbuka, satu idea utama kekal jelas: Inferens ialah tempat AI mengubah prestasi menjadi perniagaan setiap hari.. Dengan keluk kos rata pada tahap interaktiviti yang tinggi, token/s setiap GPU yang berskala elegan dan ekosistem yang tidak pernah berhenti mengoptimumkan kernel dan masa larian, Blackwell menyatukan dirinya sebagai platform rujukan bagi mereka yang ingin membina kilang AI yang cekap, pantas dan menguntungkan.
Penulis yang bersemangat tentang dunia bait dan teknologi secara umum. Saya suka berkongsi pengetahuan saya melalui penulisan, dan itulah yang akan saya lakukan dalam blog ini, menunjukkan kepada anda semua perkara yang paling menarik tentang alat, perisian, perkakasan, trend teknologi dan banyak lagi. Matlamat saya adalah untuk membantu anda mengemudi dunia digital dengan cara yang mudah dan menghiburkan.