Google 研究團隊於 ICLR 2026 展示 TurboQuant 演算法，大幅降低 LLM 記憶體開銷

2026年4月9日

Google 研究團隊在 ICLR 2026 上揭曉了 TurboQuant 演算法。該演算法能顯著減少大型語言模型（LLM）中 KV 快取所造成的記憶體負擔，提升模型運行效率。