Google 研究團隊於 ICLR 2026 展示 TurboQuant 演算法,大幅降低 LLM 記憶體開銷

Google 研究團隊在 ICLR 2026 上揭曉了 TurboQuant 演算法。該演算法能顯著減少大型語言模型(LLM)中 KV 快取所造成的記憶體負擔,提升模型運行效率。