NVIDIA動態記憶體稀疏化：8倍KV Cache壓縮，數小時內改造現有模型

KV Cache：LLM推理的隱形瓶頸

每當大型語言模型生成文本時，它需要記住之前處理過的所有token——這些記憶存儲在所謂的KV Cache（Key-Value Cache）中。隨著上下文長度增加（現代模型動輒支持百萬token），KV Cache的記憶體佔用急劇膨脹，成為推理延遲和並發能力的主要瓶頸。GPU花費大量時間等待數據從記憶體讀取，而不是執行計算。

NVIDIA的DMS採用了一種根本不同的方法：它不是用固定規則刪除token，而是訓練模型自己學會「識別」哪些token對未來推理至關重要、哪些可以安全丟棄。

核心技術：讓模型學會遺忘

DMS的核心創新是重新利用模型注意力層中的現有神經元，讓它們輸出每個token的「保留」或「驅逐」信號。這些決策通過Gumbel-sigmoid採樣機制實現可微分訓練，使模型在標準訓練過程中就能學會最優的記憶管理策略。

                    DMS技術亮點
                    壓縮比：KV Cache最多壓縮8倍
改造成本：僅需1000步訓練（幾小時內完成）
吞吐量提升：Qwen3-8B測試中最高5倍
AIME 24數學基準：受限記憶體下得分比標準模型高12分
長上下文任務：Needle-in-a-Haystack等任務超越原版模型
兼容性：直接兼容FlashAttention標準內核

                

延遲驅逐：DMS的關鍵創新

傳統的稀疏化方法一旦判定某個token不重要就立即刪除。但DMS引入了「延遲驅逐」機制——token被標記為待驅逐後，仍在一個短暫窗口期（如幾百步）內保持可訪問。這讓模型有時間從該token中「提取」所有必要信息並整合到當前上下文中，然後再安全地清除。這一設計大幅降低了信息丟失的風險。

驚人的效率與性能

研究團隊在多個推理模型上驗證了DMS，包括Qwen-R1系列（DeepSeek R1蒸餾版）和Llama 3.2。結果令人印象深刻：

在AIME 24數學基準上，配備DMS的Qwen-R1 32B模型在相同記憶體頻寬預算下，得分比標準模型高出12分
Qwen3-8B測試中，DMS在匹配原版精度的同時實現了最高5倍的吞吐量提升
在MMLU、GSM8K等短上下文任務中，4倍壓縮比下性能僅下降約3.5分
在Needle-in-a-Haystack等長上下文任務中，DMS反而超越了原版模型的表現

企業級影響：降低OPEX、提升並發

對企業而言，DMS的實際意義直接且重大。更小的KV Cache意味著更低的記憶體頻寬壓力和更少的數據等待停頓。系統花更少的時間在讀取記憶體上，更多的時間在計算上——結果是更低的延遲、更高的並發用戶容量和更低的GPU集群運營成本。

DMS的代碼已在NVIDIA的KVPress庫中開源，並與標準FlashAttention內核兼容，可直接集成到現有推理堆棧中。模型Qwen-3-8B-DMS-8x也已在Hugging Face上發布供研究使用。對於部署LLM的企業而言，DMS可能是2026年投資回報最高的推理優化技術之一。