一場關於AI未來的數學之爭

過去三年,AI產業的核心敘事建立在一個看似不可動搖的前提之上:AI能力正在以指數級速度增長,而且這種增長不會很快停止。從GPT-3到GPT-4,從Claude 2到Claude Opus 4,從Gemini 1.0到Gemini 3.1 Pro——每一代模型都展現出令人驚嘆的能力躍升,彷彿驗證了「擴展就是一切」(scaling is all you need)的信條。

METR(Model Evaluation and Threat Research)的能力追蹤模型正是這一敘事的量化表達。該模型基於多項基準測試的歷史數據擬合出一條陡峭的指數曲線,預測AI能力將持續快速攀升。這條曲線是無數投資決策、政策規劃和技術路線圖的基石。

然而,2026年2月發表的這篇arXiv論文向這一核心假設發起了正面挑戰。論文作者並非否定AI近年來取得的巨大進步,而是提出了一個根本性的問題:我們觀察到的增長模式,是否可以用一個完全不同的數學模型來更好地解釋?如果可以,那麼對未來的預測將截然不同。

2條
S型曲線(Sigmoid)
2024.9
推理技術轉折點
線性
當前增長模式
拐點
近期可能出現

雙S曲線假說:推理是一項獨立技術

論文的核心洞見在於,將當前AI能力的增長分解為兩個本質上不同的技術貢獻。

第一條S曲線代表基礎大型語言模型(Base LLM)的能力演進。從GPT-2到GPT-4,從PaLM到Gemini,基礎模型的進步主要來自擴展定律(Scaling Laws)——更多的參數、更多的訓練數據、更多的算力。這條曲線在2020年至2023年間處於其陡峭的上升期,帶來了我們所見的「AI奇蹟」。但如同所有S型曲線一樣,它終將趨於平坦。

第二條S曲線則代表推理能力(Reasoning)的技術貢獻。論文的關鍵論點是:推理不僅僅是基礎模型能力的自然延伸,而是一項獨立的技術,它以乘數效應(multiplicatively)作用於基礎LLM的能力之上。2024年9月前後,以OpenAI o1為代表的「推理模型」(reasoning models)的出現,標誌著這第二條S曲線開始進入其陡峭的上升期。

雙S曲線框架的核心邏輯

  • 第一條Sigmoid(基礎LLM):由擴展定律驅動,2020-2023年處於陡峭上升期,目前可能已接近或進入減速階段
  • 第二條Sigmoid(推理技術):由後訓練(post-training)技術驅動,2024年9月起開始陡峭上升,貢獻了近期觀察到的能力躍升
  • 乘數效應:兩條曲線的效果相乘而非相加,解釋了為何整體能力看似指數增長
  • 關鍵推論:當兩條曲線都進入飽和階段,增長速度將急劇下降

這一框架的精妙之處在於:兩條S曲線的乘積在一段有限的時間窗口內,可以非常好地模擬指數增長的表象。也就是說,METR觀察到的「指數增長」數據,同樣可以被雙S曲線模型完美擬合——但兩個模型對未來的預測卻南轅北轍。指數模型預測持續加速增長,而雙S曲線模型則預測一個拐點的到來。

從擴展到推理:兩個時代的接力

論文詳細梳理了AI能力增長的兩個階段,以及它們各自的驅動力和局限性。

第一階段(約2019-2023年)是「擴展時代」。OpenAI的研究率先揭示了語言模型性能與模型規模、數據量、算力之間存在可預測的冪律關係。這一發現引發了前所未有的「軍備競賽」——科技巨頭們爭相投入數十億美元建設算力基礎設施,訓練規模越來越大的模型。每一次規模的飛躍都帶來了可感知的能力提升,從而進一步強化了「擴展就是一切」的信念。

然而,到了2023年底至2024年初,業界開始出現微妙的信號。多家AI實驗室私下承認,單純依靠增大預訓練規模所能帶來的邊際收益正在遞減。高質量訓練數據的瀕臨枯竭、算力成本的非線性增長、以及物理層面的能源限制,都在共同壓縮擴展定律的可操作空間。

第二階段(2024年9月至今)則是「推理時代」的開端。OpenAI o1的發布標誌了一個根本性的範式轉移——不再僅僅依靠更大的預訓練模型,而是通過後訓練技術(如強化學習與思維鏈)來賦予模型更強的推理能力。此後,o3、DeepSeek-R1、Claude的深度思考模式、Gemini的Deep Think等一系列推理模型相繼問世,每一個都在各類基準測試上實現了顯著的分數躍升。

論文的關鍵觀察是:2024年9月至今的能力增長模式是陡峭的線性增長,而非加速的指數增長。這正是第二條S曲線處於中段(接近線性)時的預期表現。如果這一判斷正確,那麼推理技術帶來的增長紅利也將在某個時點開始減速——而那個拐點可能並不遙遠。

業界巨頭的分歧:誰是對的?

這篇論文的發表並非孤立事件,而是與AI產業內部一場越來越公開的分歧相互呼應。

「預訓練的結果已經趨於平坦。當前的模型正在觸及高原期。我們需要新的思路。」

—— Ilya Sutskever,前OpenAI首席科學家、Safe Superintelligence Inc.創辦人

Ilya Sutskever是深度學習革命的核心推動者之一,他在2024年離開OpenAI後多次公開表示,現有模型的能力正在觸頂,單純的擴展已無法帶來突破性的進步。作為曾經最堅定的擴展定律信徒之一,他的立場轉變震動了整個業界。

Meta首席AI科學家Yann LeCun則更早提出了類似的質疑。他長期批評業界對擴展定律的過度依賴,主張自回歸語言模型存在根本性的架構缺陷,無論如何擴展都無法達到真正的通用智能。LeCun多次公開表示,要實現真正的智能突破,需要從根本上重新設計AI架構——例如他提出的「世界模型」(World Models)方向。

然而,樂觀派同樣有強有力的代言人。Leopold Aschenbrenner在其廣為流傳的分析中預測,2027年將出現AI能力的「快速起飛」(fast takeoff),屆時AI系統將開始能夠自我改進,從而觸發加速回報的正反饋循環。AI 2027報告更大膽預測,到2027年假期季節,AI驅動的GDP增長將「急劇膨脹」,全球經濟結構將開始發生根本性重組。

兩種未來:奇點起飛 vs. 2026高原期

技術出版巨頭O'Reilly Media的分析精準地勾勒出了當前辯論的兩個極端場景。

場景一:奇點快速起飛。在這一敘事中,當前的推理技術突破只是開始。隨著AI系統獲得越來越強的自我改進能力,能力增長將進入真正的指數甚至超指數階段。2027年前後,AI將在多數認知任務上全面超越人類,觸發一連串不可逆的經濟和社會變革。這是Aschenbrenner和AI 2027報告所描繪的圖景。

場景二:2026高原期死胡同。在這一敘事中,基礎LLM的擴展已接近物理極限,推理技術的紅利也將很快耗盡。2026年至2027年間,AI能力增長將明顯減速,市場對AI的狂熱期望將遭遇冷酷的現實。數千億美元的基礎設施投資可能面臨回報不及預期的風險。這是雙S曲線假說所暗示的可能性。

兩種場景的關鍵假設對比

  • 數據瓶頸:樂觀派認為合成數據可以突破限制;悲觀派認為合成數據存在質量天花板
  • 架構創新:樂觀派押注於持續的架構突破;悲觀派指出突破的時機不可預測
  • 推理天花板:樂觀派視推理為通向AGI的橋樑;悲觀派視推理為又一條終將飽和的S曲線
  • 自我改進:樂觀派預期AI將很快能夠自我迭代;悲觀派質疑目前缺乏證據
  • 經濟影響:樂觀派預測GDP「急劇膨脹」;悲觀派預見「幻滅低谷」

Gartner與史丹福:行業信號正在轉向

支持「高原期可能性」的並非只有一篇arXiv論文。多個具有指標意義的產業和學術信號正在共同描繪出一幅更為審慎的圖景。

全球頂級科技諮詢機構Gartner已將生成式AI(Generative AI)定位於其技術成熟度曲線(Hype Cycle)的「幻滅低谷」(Trough of Disillusionment)階段。Gartner同時預警,AI代理(AI Agents)——當前業界最新的熱門敘事——很可能將步生成式AI的後塵,同樣經歷從狂熱到幻滅的周期。這意味著在Gartner的判斷中,AI產業正處於一個期望值修正的關鍵節點。

史丹福大學的教授群體則提出了一個更具深意的觀察:AI領域正在從「AI佈道主義時代」(era of AI evangelism)過渡到「AI評估主義時代」(era of AI evaluation)。過去幾年,業界由狂熱的技術佈道者主導敘事——他們的核心信息是「AI將改變一切,速度比你想像的更快」。然而,隨著越來越多的企業嘗試將AI從概念驗證推進到生產部署,嚴謹的評估和務實的期望管理正在取代盲目的樂觀。

美國外交關係委員會(Council on Foreign Relations)的分析則為這場辯論設定了一個時間框架:2026年將是「預測與懷疑之爭」的終結之年。到2026年底,我們將擁有足夠的數據來判斷AI能力增長的真實軌跡——究竟是持續的指數增長,還是開始顯現的高原期。

論文的自我定位:不是預測,而是警示

值得特別注意的是,這篇arXiv論文的作者對自身研究的定位非常謹慎。他們明確表示,論文的目標不是提出一個嚴謹的預測模型來取代METR的指數擬合,而是要揭示現有指數增長預測的「脆弱性」(fragility)。

具體而言,論文證明了以下幾點:

  • 現有的歷史數據同樣可以被雙S曲線模型很好地擬合,指數模型並非唯一解釋
  • 在雙S曲線框架下,近期出現增長拐點是「合理的」(plausible),而非異想天開
  • 任何基於短期歷史數據外推的長期預測都存在根本性的不確定性
  • 將推理視為獨立技術貢獻是分析AI增長軌跡的一個有益框架

這種謙遜的自我定位反而增強了論文的說服力。作者並非聲稱「AI一定會觸頂」,而是指出「聲稱AI一定不會觸頂的人,其論據比他們以為的要薄弱得多」。這是一種方法論層面的警示,而非預言式的宣判。

對AI投資的深遠影響

無論雙S曲線假說最終是否被驗證,這篇論文已經為AI投資界帶來了一個不容迴避的思考框架。

當前,全球科技巨頭對AI基礎設施的投資已進入天文數字級別。僅2026年,Alphabet、Microsoft、Meta、Amazon等公司的AI資本支出總額預計將超過六千億美元。這些投資的回報預期,在很大程度上建立在AI能力將持續快速增長的假設之上。

如果增長曲線在2026至2027年間開始趨緩,那麼這些巨額投資的回報周期可能被大幅拉長。數據中心建設、GPU採購、人才招聘——所有這些「不可逆」的資本配置,都將面臨重新評估的壓力。這不意味著AI投資是錯誤的,但意味著投資者需要更加審慎地評估回報預期和風險分布。

「問題不在於AI是否有價值——它當然有。問題在於,當前的資本配置是基於『持續指數增長』的假設。如果增長是S型的,那麼時機、估值和回報計算都需要重新校準。」

對於AI新創企業而言,這一討論的含義更為直接。如果能力增長減速,那麼「等待下一代更強模型來解決當前技術問題」的策略將變得不可靠。企業需要更加注重在現有技術能力範圍內構建可交付的價值,而非押注於不確定的未來能力提升。

對企業決策者和研究人員的啟示

雙S曲線假說的實際意義遠不止學術層面。以下是不同群體應當從中汲取的思考。

企業決策者

  • 多情境規劃:AI策略不應只基於「持續快速進步」的單一情境,應同時規劃「高原期」場景下的業務方案
  • 短期價值聚焦:優先部署當前技術已能可靠交付的AI應用,而非等待「下一代革命」
  • 投資節奏控制:避免在AI基礎設施上一次性大規模投入,採取分階段的漸進式部署策略
  • 人才策略調整:重視能夠在現有技術約束下創造價值的實踐型AI人才

研究人員

  • 架構創新的重要性:如果擴展定律正在耗盡,那麼根本性的架構創新(如LeCun所倡導的世界模型)將成為突破的關鍵
  • 評估方法學:需要開發更能反映真實能力(而非應試技巧)的評估基準
  • 跨學科協作:認知科學、神經科學等領域的洞見,可能比單純的工程擴展更能帶來下一次突破
  • 效率優先的研究方向:在能力增長放緩的背景下,提升現有模型的效率和可靠性將具有更大的實際價值

編輯觀點:不確定性本身就是最重要的信息

這篇arXiv論文最深刻的貢獻,或許不在於它提出的雙S曲線模型本身,而在於它所揭示的一個被產業狂熱所掩蓋的事實:我們對AI能力增長軌跡的理解,遠比主流敘事所暗示的更加不確定。

過去三年,「AI能力指數增長」幾乎已成為不容質疑的教條。在這一教條之上,我們構建了數萬億美元的投資決策、重塑了整個產業的戰略方向、甚至開始重新想像人類文明的未來。然而,一篇嚴謹的學術論文告訴我們,同樣的歷史數據可以支持一個截然不同的增長模型——一個預示著減速而非加速的模型。

這並不意味著我們應該從樂觀走向悲觀。AI技術在過去幾年所取得的成就是真實的、深刻的、具有變革性的。即使能力增長確實在2026或2027年開始減速,現有的AI技術已足以在醫療、教育、科學研究、企業運營等無數領域帶來巨大的價值。

但這確實意味著,我們需要從「AI佈道主義」過渡到「AI評估主義」——正如史丹福大學教授們所呼籲的那樣。對於香港的企業、投資者和研究機構而言,這意味著在擁抱AI機遇的同時,保持對不確定性的清醒認識。在一個連AI發展軌跡的基本數學模型都存在根本性分歧的時代,過度自信比謹慎更加危險。

外交關係委員會說得對:2026年將終結預測與懷疑之爭。而在答案揭曉之前,最明智的策略是為兩種未來都做好準備。