Google推出TurboQuant演算法：內存管理突破，Cache用量減少6倍

Google人工智慧團隊近日公布全新TurboQuant演算法，專注於解決大型語言模型中記憶體瓶頸問題。該演算法將KV cache（鍵值快取）記憶體用量降低了6倍，使得在相同硬體條件下能運行更大模型或加快速度。

此外，TurboQuant使注意力機制的logit計算速度提高了8倍，且不導致任何精度損失，完美平衡效率與性能。這項創新有望推動大型AI系統在實務應用中的廣泛部署。