LLM推理的速度困境

大型語言模型的推理過程,本質上是一個逐token的序列生成過程。模型每次前向傳播只產生一個token,然後將該token附加到輸入序列中,再進行下一次前向傳播生成下一個token——如此反覆,直到完成整個回覆。這種「自迴歸」(autoregressive)機制意味著,一段包含1000個token的回覆需要模型進行1000次獨立的前向傳播計算。

對於日常的簡短問答,這種延遲尚可接受。但隨著推理模型(reasoning models)的興起,情況發生了根本性變化。現代推理模型在回答問題前會生成大量的「思維鏈」(chain-of-thought)token——有時多達數千甚至上萬個——用於內部推理和自我驗證。這意味著用戶可能需要等待數十秒甚至數分鐘才能看到最終答案。在AI代理(agent)工作流中,這個問題更加嚴峻:代理需要連續執行多個推理步驟,每個步驟都涉及大量token生成,延遲的累積效應使得端到端任務的完成時間變得難以接受。

正如本研究的首席研究員、馬里蘭大學的John Kirchenbauer所指出的,隨著AI代理工作流成為業界主流,推理延遲正迅速從「令人不便」升級為「關鍵瓶頸」。

3倍
8B模型推理加速
<3%
GSM8K準確率損失
0
所需輔助模型數量
5倍
激進配置下最高加速

現有加速方案的局限

在這項研究之前,業界最主流的LLM推理加速方法是「投機解碼」(speculative decoding)。其基本原理是使用一個較小的「草稿模型」(draft model)快速生成多個候選token,然後由原始的大模型一次性驗證這些候選。由於驗證的計算效率遠高於逐個生成,這種方法可以顯著提升吞吐量。

然而,投機解碼存在幾個實際部署上的痛點。首先,它需要維護和部署兩個獨立的模型——原始的大模型和輔助的草稿模型——這增加了記憶體佔用和系統複雜度。其次,草稿模型與大模型之間的分佈匹配程度直接影響加速效果:如果草稿模型的預測與大模型差異過大,大量候選token會被拒絕,加速比大幅下降。第三,針對不同的大模型,通常需要專門訓練或選擇匹配的草稿模型,這增加了工程和維護成本。

其他加速方法如模型量化、KV Cache優化(如NVIDIA的DMS技術)等,則從不同角度攻克推理效率問題,但並未改變逐token生成的根本範式。

核心創新:將並行解碼能力「烘焙」進權重

這項新研究的核心思想出奇地優雅:與其在推理時依賴外部的草稿模型,不如直接訓練原始模型本身同時預測多個未來token。換言之,研究團隊將多token預測能力直接「烘焙」(bake)進了模型的權重之中。

遮罩token機制

技術實現的核心是引入一個特殊的「遮罩token」(mask token)。在訓練過程中,模型學會在看到遮罩token時,不是預測單個下一個token,而是並行預測接下來的多個token。這使得原本只能逐步生成的模型,變成了一個能夠在單次前向傳播中輸出多個token的並行解碼器。

關鍵在於,這個遮罩token的引入並不改變模型的基本架構。模型的參數量、網絡結構和推理流程保持不變——唯一的區別是,模型的權重經過了特殊訓練,使其能夠識別遮罩token並啟動並行預測模式。這意味著訓練完成後,模型可以像任何標準語言模型一樣部署,無需額外的基礎設施或特殊的推理框架。

線上自蒸餾目標函數

為了訓練模型的多token預測能力,研究團隊設計了一種「線上自蒸餾」(online self-distillation)目標函數。傳統的知識蒸餾是將一個大型教師模型的知識轉移到較小的學生模型中。而線上自蒸餾則不同——模型同時扮演教師和學生的角色:它使用自身的標準逐token預測能力作為「教師信號」,同時訓練自身的並行預測能力作為「學生」。

這種自蒸餾方法的精妙之處在於,它確保了並行預測的輸出分佈盡可能接近原始逐token預測的分佈。這意味著並行解碼生成的文本品質,能夠最大程度地保持與原始模型的一致性——準確率的損失被控制在可接受的範圍內。

技術核心要點

  • 遮罩token:特殊token觸發模型從逐步生成模式切換到並行預測模式
  • 線上自蒸餾:模型自身同時充當教師和學生,確保並行輸出品質
  • 零額外基礎設施:無需草稿模型、無需額外記憶體、無需特殊推理框架
  • 架構不變:轉換後的模型保持原始架構,部署方式與標準檢查點完全相同
  • 單一模型部署:整個推理加速在一個模型內完成,簡化運維和擴展

實驗結果:規模與效能的權衡

研究團隊在兩個不同規模的模型上進行了系統性測試,結果揭示了模型大小與加速效果之間的有趣關係。

8B參數模型:最佳平衡點

在80億參數的模型上,這項技術展現了最令人振奮的表現。標準配置下,模型實現了3倍的推理加速,而在數學推理基準GSM8K上的準確率損失不到3%。這意味著,一個原本需要30秒才能完成的推理任務,現在只需約10秒即可完成,而答案品質幾乎沒有可感知的下降。

對於大多數生產環境而言,不到3%的準確率損失是完全可以接受的代價——特別是考慮到3倍的速度提升可以直接轉化為更低的推理成本和更好的用戶體驗。以一個每天處理百萬次推理請求的服務為例,3倍加速意味著只需三分之一的GPU資源即可維持相同的服務品質,或者在相同資源下服務三倍的用戶。

4B參數模型:加速可觀但代價更高

在40億參數的較小模型上,研究團隊同樣觀察到了類似幅度的速度提升,但準確率的損失上升至約7%。這一結果暗示,較小的模型在其權重中「騰出空間」來容納多token預測能力時,不得不犧牲更多的原始任務性能。換言之,模型的參數容量越大,越能在保持原有能力的同時吸收新的並行解碼能力。

激進配置:5倍加速的可能性與代價

研究團隊還測試了更加激進的配置——嘗試在單次前向傳播中預測更多的token。在最激進的設定下,加速比達到了5倍,但伴隨而來的是更陡峭的準確率下降。這為實際部署提供了一個清晰的調節旋鈕:使用者可以根據具體應用場景的延遲要求和精度容忍度,在速度與準確率之間自由選擇最佳平衡點。

「對於需要快速回覆但精度要求不高的場景——例如初步篩選、草稿生成或即時對話——5倍加速可能是合理的選擇。而對於需要高精度的任務——例如代碼生成或數學推理——3倍加速配合不到3%的精度損失則是更穩健的方案。」

與投機解碼的關鍵差異

這項研究相較於投機解碼的最核心優勢,可以用一句話概括:一個模型解決所有問題

投機解碼需要同時管理兩個模型——主模型和草稿模型。這不僅增加了GPU記憶體需求(草稿模型雖小但仍佔用可觀的記憶體),更帶來了一系列工程複雜度:草稿模型的選擇與訓練、兩個模型之間的通信開銷、批次處理時的同步問題、以及升級主模型時同步更新草稿模型的維護負擔。

相比之下,多token預測方法將加速能力完全內化到模型權重中。部署時只有一個模型,使用的推理框架與原始檢查點完全相同。這對於已有大規模LLM部署基礎設施的企業而言,意味著幾乎零遷移成本——只需替換模型權重文件,無需更改任何推理管線、負載均衡器或監控系統。

為什麼現在特別重要

這項研究的時機恰到好處,恰好回應了當前AI產業的兩大趨勢。

推理模型的token洪流

2025年下半年以來,以OpenAI o系列和DeepSeek-R1為代表的推理模型迅速成為主流。這些模型在回答問題前會生成大量思維鏈token——動輒數千個——用於分步推理、自我驗證和回溯修正。推理模型的準確率顯著高於傳統模型,但代價是極高的token生成量和隨之而來的延遲。

以一個典型的數學推理任務為例:傳統模型可能生成200個token即可給出答案,而推理模型可能生成3000-5000個思維鏈token再加上200個答案token。如果能將這3000-5000個思維鏈token的生成速度提升3倍,用戶感知到的等待時間將從一分鐘降至二十秒——這是體驗層面的質變。

AI代理的延遲累積效應

AI代理工作流中,模型需要多次迭代地進行觀察、思考、行動、反思。每一輪迭代都涉及一次完整的推理過程,而一個複雜任務可能需要數十輪迭代。如果每輪迭代耗時30秒,完成一個20輪的任務就需要10分鐘。3倍加速意味著同樣的任務只需約3分鐘,這對於交互式AI代理的實用性有著決定性的影響。

Kirchenbauer在論文中明確指出,代理工作流正在使推理延遲成為限制AI系統實際效用的關鍵因素,而這項技術為緩解這一瓶頸提供了一條實用的路徑。

研究團隊與合作背景

這項研究匯集了學術界與產業界的力量。馬里蘭大學(University of Maryland)提供了核心的研究方向和理論框架,勞倫斯利弗莫爾國家實驗室(Lawrence Livermore National Labs)和哥倫比亞大學(Columbia University)參與了實驗設計與驗證,而TogetherAI則從工程和部署角度確保了技術的實用性。

TogetherAI的參與尤為值得關注。作為一家專注於開源AI模型推理與訓練的雲端平台公司,TogetherAI對推理效率的提升有著直接的商業動機——更快的推理意味著更低的GPU成本和更高的利潤率。這種學術研究與產業需求的緊密結合,使得該技術從論文到實際部署的路徑更加清晰。

局限性與未來展望

儘管成果令人鼓舞,這項研究仍存在一些值得關注的局限性。首先,在較小的模型(4B參數)上,7%的準確率損失對於某些精度敏感的應用場景而言可能偏高。其次,激進配置下的5倍加速雖然誘人,但伴隨的陡峭準確率下降限制了其適用範圍。此外,論文目前的實驗主要集中在GSM8K數學推理基準上,在更多樣化的任務上(如長文本生成、多輪對話、代碼補全等)的表現仍有待驗證。

然而,作為一個概念驗證,這項研究清楚地展示了一條全新的加速路線:與其在推理時使用複雜的多模型架構,不如在訓練時將加速能力直接編碼進權重。隨著訓練技術和目標函數的進一步優化,準確率損失有望持續收窄,適用範圍也會進一步擴大。

編輯觀點

這項研究的真正突破性意義,不在於3倍加速這個數字本身,而在於它所展示的方法論轉向:推理加速不必然需要複雜的系統級工程,它可以被「學」進模型的權重之中。這種思路與近期AI研究的一個更廣泛趨勢高度一致——越來越多的系統級問題正在被轉化為學習問題。從NVIDIA的DMS讓模型「學會」管理自己的KV Cache,到Prime Intellect的RLM讓模型「學會」管理自己的上下文窗口,再到今天這項研究讓模型「學會」同時預測多個token——我們看到的是,大型語言模型正在被訓練去解決它自身部署時面臨的工程挑戰。

對於正在部署或計劃部署LLM推理服務的企業和團隊而言,這項技術的「零額外基礎設施」特性使其具有極高的實用吸引力。不需要重構推理管線,不需要採購額外的GPU來運行草稿模型,只需替換一個模型權重文件——這種近乎「即插即用」的體驗,可能使多token預測成為2026年最容易被大規模採用的推理加速技術之一。