- TurboQuant 可將 KV 快取壓縮至原來的六倍,而不會明顯損失質量,從而大幅降低 AI 推理中的記憶體使用量。
- 該技術結合了 PolarQuant 和 QJL,可將向量量化到 3 位,並在高階 GPU 上將注意力運算速度提高至八倍。
- 採用該技術可能會降低大型模型的運行成本,改變對 RAM 和 HBM 的需求,並改變硬體和演算法之間的平衡。

我們已經討論記憶體危機好幾個月了。 人工智慧如何將晶片需求推向近乎荒謬的程度,使得任何想要升級電腦或建造家庭伺服器的人都離不開晶片。在此背景下,Google研究院推出了TurboQuant,一種壓縮技術,預計在不犧牲準確性和速度的前提下,顯著降低人工智慧模型所需的記憶體——這聽起來幾乎像是科幻小說,但它已經開始撼動市場格局。
這一切的有趣之處在於 TurboQuant 不是小的表面調整,而是大型語言模型內部記憶體管理方式的深刻改變。我們所說的,是指將這些系統用於「記住」你剛剛輸入的內容的工作內存容量減少至多六倍,同時保持響應質量,並且在許多情況下還能加快注意力處理速度。對使用者而言,這可能意味著更便宜、更容易使用的AI;而對記憶體製造商來說,這是一個嚴肅的警告:好日子可能不會永遠持續下去。
TurboQuant 解決了什麼問題:KV 快取瓶頸
要了解為什麼每個人都在關注 TurboQuant,你必須從 KV 快取開始。這是語言模型運作中鮮為人知卻至關重要的環節。每次你與 ChatGPT 類型的聊天機器人聊天時, Google雙子座 哦,克勞德,這個模型不會為每個字從頭開始重新計算:它會保留一個內部記事本,記錄到目前為止說過的話。
那個記事本是 鍵值快取(KV快取)工作內存,模型在其中存儲代表其正在分析的對話或文檔上下文的鍵和值。 隨著每條新訊息的到來,快取都會成長。 而且,在長時間對話或包含大量文字的任務中,它最終會佔用 GPU 或加速器的 HBM 上的大量記憶體。
實際影響很容易想像: 並行運行一個面向約 512 個用戶的大型模型,僅 KV 快取一項就可能消耗高達 512 GB 的空間。這幾乎是模型本身佔用記憶體的四倍。正是這種隱性成本使得維護全天候生成式人工智慧服務的成本如此之高,不僅初始訓練如此,日常推理也是如此。
這就是TurboQuant的用武之地。 谷歌研究院設計了一種演算法,能夠在不明顯損失模型品質的情況下,將快取壓縮多達六倍。 它在閱讀理解、程式碼生成、文字摘要或長期上下文分析等任務中表現出色。此外,它無需重新訓練模型或進行特定的微調,這極大地促進了其在實際應用中的推廣。
TurboQuant 的工作原理:將向量量化發揮到極致。
TurboQuant的關鍵在於 這不僅僅是壓縮更多資料的問題,而是要更好地壓縮 KV 快取的問題。該技術基於非常激進的向量量化,每個元素的值高達 3 位,而質量損失卻微乎其微,這在像 LLM 注意力計算這樣敏感的環境中,到目前為止幾乎是不可能的。
Google 整合到 TurboQuant 中 兩個主要概念:極化量子和量子化一方面,PolarQuant 會重新排列向量並將其轉換到不同的座標系,更容易壓縮。另一方面,QJL 會新增一個位元校正,用於補償殘餘誤差,防止模型在處理過程中存取文字的錯誤部分,從而保持計算的準確性。
同 在 PolarQuant 中,向量不再以傳統的笛卡爾座標 (X, Y, Z) 表示。 然後,它們會被轉換成一個用半徑和一個或多個角度來表示的系統。舉個簡單的例子,與其說“向東走三步,向北走四步”,不如告訴模型“以37度角走五步”。這種資訊編碼方式可以用更少的資料來描述相同的位置,從而實現更高的資料壓縮率。
恩典在於 經典的量化方法通常需要儲存額外的常數或標度。 為了防止壓縮導致資料品質下降,每個值都額外增加了一到兩個位元。這種額外的記憶體佔用抵消了大部分的壓縮節省。而 PolarQuant 則減少或消除了這種額外的開銷,從而在處理大型上下文中的數百萬個向量時,實現了真正顯著的淨壓縮。
這個系統的第二部分是QJL,一個 使用量化的 Johnson-Lindenstrauss 變換的額外校正層實際上,殘差誤差會被投影到一個較小的空間中,每個值都以一個符號位元進行編碼,這幾乎不會增加整體的記憶體開銷。這種微小的調整可以修正過於激進的量化方式所引入的偏差,並將累積誤差控制在可控範圍內。
PolarQuant和QJL結合的結果是: Google 可以將 KV 快取量化為 3 位,甚至使用 4 位來加快操作速度,而不會出現明顯的效能下降。在採用 Nvidia H100 GPU 的內部測試中,注意力運算速度比非量化 32 位元金鑰快了八倍,這在資料中心的背景下代表著非常顯著的差異。
基準測試結果和獨立技術驗證
除了承諾之外, 谷歌使用各種長上下文基準測試對 TurboQuant 進行了測試。 為了避免只得到一些簡單的範例,測試包括 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 和 L-Eval,這些測試旨在衡量模型處理大量文字、在龐大的文件中查找特定資訊或在複雜任務中保持邏輯連貫性的能力。
研究人員使用開放模型對 TurboQuant 進行了評估,例如 傑瑪和米斯特拉爾並將其與 KIVI 技術或向量檢索中使用的標準量化方法(包括乘積量化或 RabbiQ)進行了比較。谷歌的意圖很明確: 壓縮模型得到的結果與原始模型完全相同或幾乎沒有差異。同時顯著減小 KV 快取的大小。
在某些測試平台中,Google團隊直接提到了 “品質絕對中立”對於所評估的指標,量化模型的行為與未壓縮模型的行為逐位等價。這並非「非常相似」的情況,而是在測試參數範圍內,系統的反應完全相同。
另一個驚人的事實是 TurboQuant無需重新訓練模型,也不需要使用特定資料進行微調。它作為附加層應用於現有模型之上,運行時開銷非常低,這對於在大規模生產系統中部署至關重要。
儘管谷歌尚未發布包含該實現的官方程式碼庫, 獨立開發者已經根據這篇論文重現了這個演算法。 他們成功地復現了實驗結果,包括在消費級GPU上原始模型和壓縮版本輸出完全相同的結果。這有力地表明,我們所面對的並非學術界的故弄玄虛,而是一種可重複的技術。
對記憶體、效能和模型部署的影響
綜上所述,我們可以直接得出明確的結論: 如果 KV 快取減少至多六倍,同樣的硬體就能做更多的事情。對於給定的GPU資源,AI提供者可以根據自身優先順序選擇不同的策略。
第一個選擇是 使用相同的基礎設施服務更多並髮用戶。因為每次對話佔用的記憶體都會顯著減少。另一個選擇是… 維持更長時間的脈絡這樣一來,就可以容納大量的對話或龐大的文檔,而無需刪除故事情節或使用中間的概括技巧。當然,還有另一種可能性: 在記憶體較少的機器上運行更大的模型這為在資源受限的環境中進行更強大的部署打開了大門。
就性能而言, 在 4 位元配置下,注意力計算速度比 H100 快八倍。這直接影響使用者感知到的延遲以及每個詞元的處理成本。雖然 8 倍的效能提升僅適用於流程中的特定元件,而非整個推理過程,但對於語言模型中最耗費資源的步驟之一而言,這仍然是一項顯著的改進。
谷歌用一個具體的例子說明了經濟影響: 在英偉達 Blackwell 晶片上使用 4 位元技術量化的包含約 690.000 億個參數的模型 在密集配置下,每百萬個代幣的成本可能從約 1 美元降至約 0,05 美元。這是單位成本的大幅下降,如果應用於商業服務,可能會徹底改變市場價格。
然而,有一點關鍵細節需要先明確: TurboQuant 適用於推理階段,不適用於訓練階段。大規模模型的訓練階段仍然需要大量的記憶體和運算能力,因此對HBM、GDDR和高效能RAM的需求不會在一夜之間消失。 TurboQuant的作用在於降低數百萬用戶持續運行這些模型的成本。
對記憶體產業和股市的影響
TurboQuant的公告迅速產生了最直接的影響: 在主要內存製造商的報價中像美光、三星、SK海力士、閃迪(西部數據)或鎧俠這樣的公司,都曾處於非常有利的發展階段,這得益於人工智慧對記憶體和HBM的巨大需求。然而,如今出現了一種可以「用更少的資源做同樣的事情」的技術,這本身就敲響了警鐘。
該研究發表後, 這些製造商中幾家的股價都出現了明顯下跌。在某些情況下,有報告指出累計跌幅超過近期高點的20%,具體來說,三星股價下跌約8%,SK海力士下跌近11%,美光下跌約10%。西部數據和其他廠商也受到這股下跌趨勢的影響。
許多投資者的理由很簡單: 如果大型人工智慧模型能夠在每個使用者佔用更少記憶體的情況下運行DRAM 和 HBM 晶片的爆炸性需求可能會比預期更快放緩,這將減少製造商繼續提高價格和維持超高利潤率的迴旋餘地。
然而,並非所有人都認同這種災難性的觀點。金融界的一些人士,例如… 摩根士丹利分析師他們指出,這就是所謂的傑文斯悖論:當一項技術使資源的利用效率更高時,該資源的總消耗量往往最終會增加,因為新的應用會湧現,使用量也會飆升。
應用於人工智慧領域 大幅降低推理成本可能會促使個人和企業更多地使用這些系統。這將帶來更多流量、更多令牌,以及對更大更複雜模型的更大需求。在這種情況下,記憶體需求不會減少,反而可能增加,儘管分配方式有所不同,某些類型模組的壓力也會稍微減輕。
個人電腦使用者和消費市場會如何注意到這一點?
儘管TurboQuant的主要用途是 資料中心和大型人工智慧部署此舉恰逢消費級記憶體市場的一些有趣變化。例如,最近幾週,一些記憶體套裝的價格顯著下降,例如 Corsair Vengeance DDR5 32GB 6000MHz (2x16GB) 的價格,在一些線上商店已從約 490 歐元降至約 340 歐元。
但是,我們必須謹慎: 谷歌的技術直接影響人工智慧加速器中使用的記憶體。 (例如高階GPU中使用的HBM顯存),而非桌上型電腦或筆記型電腦使用的DDR5記憶體條。我們在商店裡看到的降價更多是由於正常的供需週期、新一代產品的上市以及庫存調整,而非TurboQuant本身造成的。
那說, 如果大型人工智慧公司最終需要的每台伺服器記憶體略少一些部分DRAM和HBM產能可以釋放出來,分配給其他產品線,或至少可以緩解近期幾乎所有記憶體模組價格上漲的壓力。樂觀來看,這或許有助於消費市場的價格恢復到某種程度的正常水準。
同時,還有另一種可能的情況: 這種效率的提升可以轉化為更大規模的模型和更普及的人工智慧服務。因此,對記憶體的總需求量將持續成長。在這種情況下,家庭用戶可能無法看到價格大幅下降,至少不會像許多人目睹製造商股價下跌後所預期的那樣大幅下降。
正是這種期望與現實之間的衝突,才使得目前的情況如此。 對於只想升級電腦而不想為此背負抵押貸款的普通民眾來說,情況仍然不明朗。情況正在發生變化,但最終對網路商店DDR5記憶體價格的影響仍有待確定。
「花衣魔笛手時刻」及其與DeepSeek的相似之處
技術界的反應並不僅限於冷冰冰的分析: 人們立即將其與電視劇《矽谷》進行比較。在小說中,新創公司 Pied Piper 正在開發一種革命性的壓縮演算法,這種演算法效率極高,如同魔法一般,有可能徹底改變科技產業。
TurboQuant 在社群媒體上引發了大量的玩笑和類比。 將其比喻為人工智慧記憶的「魔笛手」。這個笑話也有幾分道理:壓縮技術能夠在不造成明顯損失的情況下進行,能夠在現有系統上部署,並且能夠直接降低成本,這正是能夠改變市場平衡的那種創新。
另一個反覆出現的說法是所謂的 谷歌的“DeepSeek時刻”不久前,中國新創公司DeepSeek推出了一款能夠與業內頂尖模型相媲美,但訓練成本卻遠低於美國競爭對手的模型,這震驚了整個行業。這表明,效率,而不僅僅是強大的運算能力,也是製勝之道。
TurboQuant 正好符合這個描述: 它的功能與現有型號相同,但日常使用所需的資源要少得多。與其說是智慧上的飛躍,不如說是工程和優化上的飛躍,這與透過壓縮演算法和軟體來減少對日益昂貴的硬體的依賴這一更廣泛的趨勢相一致。
作品將在以下場合展出: ICLR 2026,最重要的機器學習會議之一他強調,這不僅僅是一份花俏的新聞稿,而是對研究界的一項嚴肅貢獻,並經過了該領域專家的審查和審查。
更多演算法,更少硬體性能
在過去兩年中, 人工智慧領域的大部分爭論都集中在誰擁有更多的GPU、更多的HBM和更多的資料中心。一切似乎都圍繞著矽和電能的累積展開,天文數字般的投資和基礎設施擴張計畫不斷打破紀錄。
TurboQuant象徵著向另一種理念的轉變: 演算法層面仍有龐大的最佳化空間。與其繼續僅僅透過增加記憶體和核心來擴展規模,我們可以嘗試讓每個位元組和每次操作都發揮更大的作用,從而減少像 KV 快取這樣的瓶頸,而不會降低用戶體驗。
對於大型科技公司而言,這一點尤其具有吸引力,因為 這樣就有可能在不降低利潤率的情況下降低每個推理代幣的價格。這主要是因為實際成本大幅下降。至於他們是選擇將這些節省下來的成本讓利給最終客戶,還是選擇維持原有價格以提高利潤率,則是另一回事了。
同時,這項研究也向生態系統傳遞了一個非常明確的訊息: 並非所有問題都取決於能否生產更多記憶體和晶片。那些能夠顯著提升每GB效能的公司也將參與競爭。對於新創公司和小型專案而言,像TurboQuant這樣的技術可以讓它們在無需巨額預算的情況下,參與更高程度的競爭。
歸根結底,許多人工智慧專案的真正限制不在於模型在品質方面能夠做什麼,而在於… 大規模生產需要多少成本?如果一套實驗室裡非常出色的系統在被數百萬人每天使用時被證明在經濟上不可行,那麼它就毫無意義。
谷歌透過TurboQuant提出的方案本質上是: 釋放記憶中蘊藏的大部分潛能:為基礎設施留出喘息空間,允許更廣泛的應用場景而不導致成本飆升,並且順便迫使人們重新思考 RAM 製造商在軟體日益向硬體基礎施加壓力的市場中的角色。
種種跡象表明,極致的鍵值緩存壓縮、高達六倍的內存節省以及加速的注意力計算相結合,可能標誌著人工智能擴展方式的轉折點,開啟了一個不再僅僅是我們擁有多少內存的問題,而是… 決定我們如何使用它的演算法有多聰明?.
對字節世界和一般技術充滿熱情的作家。我喜歡透過寫作分享我的知識,這就是我在這個部落格中要做的,向您展示有關小工具、軟體、硬體、技術趨勢等的所有最有趣的事情。我的目標是幫助您以簡單有趣的方式暢遊數位世界。

