Google 發布 TurboQuant：LLM 記憶體壓縮6倍、推理速度快8倍，零精度損失

Google 今日發布名為 TurboQuant 的全新大型語言模型壓縮算法，在業界引發廣泛關注。這項技術能將 LLM 的鍵值快取（key-value cache）記憶體佔用壓縮至少6倍，並帶來最高 8倍的推理速度提升——關鍵是在完全不損失精度的前提下實現。

技術突破：讓前沿模型跑進消費者設備

TurboQuant 的核心突破在於重新思考 LLM 推理時的記憶體管理方式。傳統方法需要為每個 Token 保存完整的注意力快取，隨著上下文長度增加，記憶體需求呈線性成長。TurboQuant 通過一種新型量化策略，在幾乎不影響輸出品質的情況下，大幅壓縮這些中間表示。

實際影響極為深遠：過去需要高端伺服器 GPU 才能運行的前沿模型，現在可以在 16GB 記憶體的 Mac Mini 或高端智慧型手機上流暢運行。這標誌著強大 AI 從雲端走向終端設備的關鍵一步。

對於整個 AI 生態系統而言，此突破意義重大：

隱私保護：模型在本地設備運行，敏感數據不需傳輸至雲端。延遲降低：無需網絡往返，回應速度更快。離線使用：在無網絡環境下仍可使用強大 AI。成本削減：企業可大幅降低雲端推理費用。

此前，HP 也剛推出搭載 20B 本地模型的 HP IQ 商用 PC 平台，顯示業界正全面加速推動端側 AI。Google 的 TurboQuant 可能為整個行業的模型部署方式帶來根本性轉變。