KV Cache:LLM推理的隱形瓶頸
每當大型語言模型生成文本時,它需要記住之前處理過的所有token——這些記憶存儲在所謂的KV Cache(Key-Value Cache)中。隨著上下文長度增加(現代模型動輒支持百萬token),KV Cache的記憶體佔用急劇膨脹,成為推理延遲和並發能力的主要瓶頸。GPU花費大量時間等待數據從記憶體讀取,而不是執行計算。
NVIDIA的DMS採用了一種根本不同的方法:它不是用固定規則刪除token,而是訓練模型自己學會「識別」哪些token對未來推理至關重要、哪些可以安全丟棄。
核心技術:讓模型學會遺忘
DMS的核心創新是重新利用模型注意力層中的現有神經元,讓它們輸出每個token的「保留」或「驅逐」信號。這些決策通過Gumbel-sigmoid採樣機制實現可微分訓練,使模型在標準訓練過程中就能學會最優的記憶管理策略。
DMS技術亮點
- 壓縮比:KV Cache最多壓縮8倍
- 改造成本:僅需1000步訓練(幾小時內完成)
- 吞吐量提升:Qwen3-8B測試中最高5倍
- AIME 24數學基準:受限記憶體下得分比標準模型高12分
- 長上下文任務:Needle-in-a-Haystack等任務超越原版模型
- 兼容性:直接兼容FlashAttention標準內核
延遲驅逐:DMS的關鍵創新
傳統的稀疏化方法一旦判定某個token不重要就立即刪除。但DMS引入了「延遲驅逐」機制——token被標記為待驅逐後,仍在一個短暫窗口期(如幾百步)內保持可訪問。這讓模型有時間從該token中「提取」所有必要信息並整合到當前上下文中,然後再安全地清除。這一設計大幅降低了信息丟失的風險。
驚人的效率與性能
研究團隊在多個推理模型上驗證了DMS,包括Qwen-R1系列(DeepSeek R1蒸餾版)和Llama 3.2。結果令人印象深刻:
- 在AIME 24數學基準上,配備DMS的Qwen-R1 32B模型在相同記憶體頻寬預算下,得分比標準模型高出12分
- Qwen3-8B測試中,DMS在匹配原版精度的同時實現了最高5倍的吞吐量提升
- 在MMLU、GSM8K等短上下文任務中,4倍壓縮比下性能僅下降約3.5分
- 在Needle-in-a-Haystack等長上下文任務中,DMS反而超越了原版模型的表現
企業級影響:降低OPEX、提升並發
對企業而言,DMS的實際意義直接且重大。更小的KV Cache意味著更低的記憶體頻寬壓力和更少的數據等待停頓。系統花更少的時間在讀取記憶體上,更多的時間在計算上——結果是更低的延遲、更高的並發用戶容量和更低的GPU集群運營成本。
DMS的代碼已在NVIDIA的KVPress庫中開源,並與標準FlashAttention內核兼容,可直接集成到現有推理堆棧中。模型Qwen-3-8B-DMS-8x也已在Hugging Face上發布供研究使用。對於部署LLM的企業而言,DMS可能是2026年投資回報最高的推理優化技術之一。