Google推出TurboQuant演算法:內存管理突破,Cache用量減少6倍

Google人工智慧團隊近日公布全新TurboQuant演算法,專注於解決大型語言模型中記憶體瓶頸問題。該演算法將KV cache(鍵值快取)記憶體用量降低了6倍,使得在相同硬體條件下能運行更大模型或加快速度。

此外,TurboQuant使注意力機制的logit計算速度提高了8倍,且不導致任何精度損失,完美平衡效率與性能。這項創新有望推動大型AI系統在實務應用中的廣泛部署。

詳細介紹請參閱:https://ai.googleblog.com/2026/04/turboquant-algorithm