從31.1%到77.1%:ARC-AGI-2得分翻倍的歷史性跳躍
ARC-AGI-2(Abstraction and Reasoning Corpus for Artificial General Intelligence 2)是目前公認最具挑戰性的AI推理基準之一。與一般語言能力測試不同,ARC-AGI-2專門測試模型面對全新抽象推理問題時的泛化能力——模型不能依靠記憶訓練資料中的模式,而必須展現真正的邏輯歸納和類比推理能力。正因如此,它長期被視為衡量AI離「通用智能」還有多遠的重要指標。
2025年11月發布的Gemini 3 Pro在ARC-AGI-2上取得31.1%的成績,在當時已屬前列水平。僅僅三個月後,Gemini 3.1 Pro將這一得分推高至77.1%——增幅達148%,超過一倍有餘。要理解這個跳躍的意義,可以將其與主要競爭對手進行對比:Anthropic的Claude Opus 4.6得分為68.8%,OpenAI的GPT-5.2為52.9%。換言之,Gemini 3.1 Pro不僅超越了所有對手,而且領先幅度相當顯著——比第二名高出8.3個百分點,比GPT-5.2高出24.2個百分點。
這一成績的重要性還在於,ARC-AGI-2是一個出了名「難以作弊」的基準。由於每次測試的題目都是全新的、從未出現在任何訓練資料中的抽象圖形推理問題,模型無法通過大量背記來提分。77.1%的得分意味著Gemini 3.1 Pro在面對完全陌生的推理題目時,能夠正確解決超過四分之三的問題——這是一個質的飛躍,標誌著AI的抽象推理能力正在接近一個此前難以想像的水平。
「從31.1%到77.1%不是一次漸進式的改善,而是一次能力級別的躍遷。這意味著Gemini 3.1 Pro在面對完全陌生的抽象問題時,已經具備了相當可靠的推理能力——這是我們在ARC-AGI-2設計之初認為需要很多年才能達到的水平。」——ARC Prize Foundation評論
三層思維系統:將Deep Think推理融入日常模型
Gemini 3.1 Pro最核心的架構創新,是將此前僅存在於獨立Deep Think模型中的深度推理能力,以一種分層式的方式整合進了更快、更通用的模型當中。這個設計被稱為「三層思維系統」(Three-Tier Thinking System),包含低(Low)、中(Medium)、高(High)三個計算層級。
在低計算模式下,模型的行為與傳統快速回應模型類似——適合簡單的事實查詢、日常對話、格式轉換等不需要複雜推理的任務。回應速度快、成本低,用戶幾乎感覺不到延遲。這個層級存在的意義在於,現實世界中大量的AI使用場景其實並不需要深度推理,對這些場景投入過多計算資源是一種浪費。
在中計算模式下,模型會啟動適度的內部推理鏈,適用於多步驟的數學運算、邏輯推導、程式碼分析和中等複雜度的問題解決。大多數專業工作場景——如撰寫商業分析報告、審查程式碼邏輯、回答專業領域問題——會落在這個層級。模型在速度和推理深度之間取得平衡,既不會過度消耗計算資源,也不會犧牲答案品質。
在高計算模式下,模型的行為本質上等同於一個「迷你版Deep Think」。面對最具挑戰性的問題——複雜的科學推理、多層次邏輯謎題、ARC-AGI-2級別的抽象推理——模型會啟動完整的深度推理流程,探索多條推理路徑、進行自我驗證和迭代修正。77.1%的ARC-AGI-2得分,正是在高計算模式下取得的。
三層思維系統技術要點
- 低計算模式(Low):快速回應,適合簡單查詢和日常對話,幾乎無延遲
- 中計算模式(Medium):適度推理,適合專業工作和多步驟分析,速度與深度平衡
- 高計算模式(High):完整深度推理,等同迷你Deep Think,適合最困難的推理問題
- 自動切換:模型根據問題複雜度自動選擇層級,用戶無需手動指定
- API控制:開發者可通過參數手動指定思維層級,實現精細成本控制
這種設計的深層意義在於,它解決了AI推理模型長期面臨的一個根本矛盾:深度推理需要大量計算時間和成本,但並非每個問題都值得這樣的投入。過去,用戶要麼使用快速但「淺層」的模型,要麼使用慢速但「深度」的推理模型,無法在同一個模型內無縫切換。三層思維系統讓用戶只需調用一個模型端點,系統就會智慧地為每個問題分配恰當的計算資源。對於大規模API應用而言,這意味著顯著的成本節約和效率提升。
Deep Think升級:84.6% ARC-AGI-2與48.4% Humanity's Last Exam
如果說Gemini 3.1 Pro的77.1%已經令人震撼,那麼Deep Think推理模式的同步升級更是將紀錄推到了一個前所未有的高度。升級後的Deep Think在ARC-AGI-2上達到84.6%的驚人得分——這一成績經由ARC Prize Foundation獨立驗證確認,是該基準有史以來的最高紀錄。
84.6%意味著什麼?這意味著在面對由研究者精心設計的、從未出現在任何訓練資料中的全新抽象推理問題時,Deep Think能夠正確解決將近六分之五的題目。考慮到ARC-AGI-2的題目設計初衷就是要難倒AI系統——每道題都要求模型從極少量的範例中歸納出普遍規律,並將其應用到全新的情境中——這個正確率堪稱驚人。
同樣值得關注的是Deep Think在Humanity's Last Exam上取得的48.4%得分。Humanity's Last Exam是由全球頂尖學者設計的超高難度跨學科考試,旨在測試AI在人類知識的最前沿的表現。48.4%的成績是在「無工具」條件下取得的——也就是說,Deep Think沒有使用搜索引擎、計算器或任何外部工具,純粹憑藉自身的推理能力。這不僅是歷史最高紀錄,而且顯著超越了此前所有模型(包括使用工具的模型)的表現。
「Deep Think在ARC-AGI-2上的84.6%和Humanity's Last Exam上的48.4%,同時打破了兩項被認為短期內不可能被打破的紀錄。更值得注意的是,Humanity's Last Exam的成績是在完全不使用外部工具的條件下取得的——這意味著模型的內在推理能力已經超越了工具輔助的上限。」——AI基準測試研究社群分析
最便宜的前沿模型:重新定義性價比
在性能大幅躍升的同時,Gemini 3.1 Pro在定價上採取了極具攻擊性的策略,使其成為目前市場上最便宜的前沿級AI模型。具體而言,其輸入成本比Anthropic的Claude Sonnet 4.6低33%,輸出成本低20%。考慮到Gemini 3.1 Pro在多項基準測試上的成績已經超越甚至遠超Sonnet 4.6級別的模型,這一定價策略等同於Google在向競爭對手發出明確的商業信號:我們不僅更強,而且更便宜。
對於大規模使用AI API的企業和開發者而言,這一價格差異的影響是巨大的。假設一個企業每月的AI API支出為10萬美元,僅輸入成本的33%降幅就意味著每年節省近40萬美元。在AI應用規模快速擴張的2026年,這種成本優勢足以影響企業的技術選型決策。
前沿模型定價對比
- Gemini 3.1 Pro:輸入成本比Sonnet 4.6低33%,輸出成本低20%
- 性能領先:ARC-AGI-2 77.1%,超越Opus 4.6(68.8%)和GPT-5.2(52.9%)
- 等效智能成本:考慮性能提升幅度,每單位推理能力的成本降幅超過50%
- 可用渠道:Gemini API、Google AI Studio、Gemini CLI、Vertex AI
這種「高性能低價格」的策略並非偶然。Google擁有自研的TPU(Tensor Processing Unit)晶片和龐大的雲端基礎設施,其推理計算的邊際成本遠低於依賴第三方雲端的競爭對手。這使得Google能夠在不犧牲利潤率的情況下提供更低的API定價——這是一種只有擁有全棧硬體能力的公司才能玩的遊戲。對於Anthropic和OpenAI而言,如何在Google的價格攻勢下維持競爭力,將成為2026年下半年的重要戰略挑戰。
Lyria 3與Nano Banana 2:生成式AI的多模態擴展
伴隨Gemini 3.1 Pro的發布,Google同時推出了兩款重量級的生成式AI模型,進一步鞏固其在多模態AI領域的領導地位。
Lyria 3是Google迄今為止最先進的音樂生成模型。用戶只需提供一段文字描述或一張圖片,Lyria 3就能生成長達30秒的定制原創音樂片段。這不是簡單的MIDI旋律生成,而是包含完整配器、混音和母帶處理的高品質音頻。Lyria 3支援多種音樂風格的精確控制,從古典管弦到電子舞曲,從爵士即興到電影配樂,都能以專業水準產出。
更值得關注的是,Lyria 3生成的每一段音樂都內嵌了SynthID數位浮水印——這是Google DeepMind開發的AI生成內容標記技術。SynthID以人耳不可察覺的方式嵌入音頻信號中,但可以被專用工具檢測到,從而幫助識別AI生成的音樂內容。在AI生成內容日益增多的時代,這種可追溯性對於版權保護和內容真實性驗證至關重要。
Nano Banana 2則是Google的新一代圖像生成模型。雖然具體的技術細節尚未完全公開,但Google將其定位為「下一代」(next-gen)圖像生成技術,暗示在圖像品質、生成速度、風格控制和安全性等維度上都有重大改進。結合Google在文字、圖像、音樂和影片生成方面的全面佈局,其多模態生成能力的完整性在業界已經難覓對手。
Veo 3.1影片模板與AppFunctions:從生成到控制
在影片生成方面,Google推出了Veo 3.1影片模板功能,包括「Cyberpunk」和「Glam」等預設風格模板。這些模板讓用戶能夠以更低的門檻和更高的一致性,生成特定視覺風格的影片內容。模板化的設計降低了影片生成的隨機性,使得商業應用——如品牌廣告、社交媒體內容、產品展示——變得更加可控和可預測。
然而,此次發布中最具前瞻性的產品或許是AppFunctions——一個面向Android平台的全新框架,讓Gemini能夠在設備本地直接控制手機應用程式。AppFunctions的設計理念與Anthropic推動的MCP(Model Context Protocol)類似,但Google選擇了一條更加平台導向的路徑:它不是一個跨平台的開放協議,而是深度嵌入Android生態系統的原生框架。
通過AppFunctions,Gemini可以理解和操作手機上安裝的各種應用——發送訊息、預訂餐廳、管理日程、處理照片、操控智能家居設備——而這一切都在設備本地完成,不需要將個人數據上傳到雲端。這種「設備端AI代理」的模式既提供了強大的功能,又保護了用戶隱私。
AppFunctions的首個Beta版本已經在Samsung Galaxy S26和Google Pixel 10上啟動測試。選擇這兩款旗艦設備作為首發平台,既確保了足夠的硬體性能支撐設備端推理,也展示了Google與Samsung在AI領域日益緊密的合作關係。如果AppFunctions能夠成功推廣,它將把AI代理的能力從雲端帶到每個人的口袋中,徹底改變人與手機互動的方式。
AppFunctions核心特性
- 設備本地執行:AI代理在手機本地運行,無需上傳個人數據至雲端
- 跨應用控制:Gemini可操控設備上的各類應用程式,實現自動化工作流
- 類MCP架構:為Android生態提供標準化的AI-應用互動框架
- 首發設備:Samsung Galaxy S26、Google Pixel 10
- 隱私優先:數據處理在設備端完成,符合日益嚴格的隱私法規要求
LLMArena霸榜:十強中獨佔四席的統治力
在權威AI模型排名平台LLMArena的最新排名中,全球前十名的AI模型中有四個來自Google——這是任何其他公司都未能達到的成就。這四個模型涵蓋了從通用對話到深度推理的不同層級,展現了Google在AI模型矩陣上的全面深度。
作為對比,曾經長期主導AI排名的OpenAI在前十名中僅有一個模型入圍,且排名第八。這與一年前OpenAI幾乎壟斷前五名的局面形成了鮮明對比。據多方報導,OpenAI內部已進入「code red」(紅色警報)模式——一個通常用於描述組織面臨嚴重威脅時啟動緊急應對措施的術語。
Google在LLMArena的統治地位並非偶然。過去十二個月,Google DeepMind以極高的節奏推出了一系列模型:從2025年11月的Gemini 3 Pro,到2025年底的Deep Think推理模型,再到現在的Gemini 3.1 Pro和升級版Deep Think——每一次發布都在多個維度上推動了前沿。這種「持續小步快跑」的策略,與OpenAI「大版本間隔長等待」的模式形成了鮮明對比。
對於整個AI產業的格局而言,Google的崛起意味著AI模型市場正在從「一家獨大」走向「多極競爭」。Google佔據四席、Anthropic和其他公司分享剩餘席位的局面,意味著開發者和企業用戶面臨著前所未有的豐富選擇——但也面臨著更加複雜的技術選型決策。
OpenAI的困境:從領先者到追趕者
Google此次發布的另一個重要觀察視角,是它對OpenAI競爭地位的衝擊。在ARC-AGI-2基準上,GPT-5.2的52.9%不僅遠遠落後於Gemini 3.1 Pro的77.1%,甚至也落後於Anthropic的Claude Opus 4.6的68.8%。在LLMArena排名中,OpenAI的唯一入榜模型僅列第八。在定價方面,Gemini 3.1 Pro的低價策略進一步壓縮了OpenAI的競爭空間。
這種多維度的落後,對於一家長期以「AI領域先驅和領導者」自居的公司而言,無疑是一個警鐘。OpenAI據報已進入「code red」模式,這暗示其內部已經意識到形勢的嚴峻性。然而,從追趕者翻盤為領先者,需要的不僅僅是技術突破,還需要在產品策略、定價模式和生態系統建設上進行系統性的調整。
當然,AI競賽的特點是格局可以快速翻轉。OpenAI擁有龐大的用戶基礎、成熟的產品體驗和強大的品牌認知度。ChatGPT仍然是全球使用最廣泛的AI產品,其消費者端的護城河短期內難以被撼動。但在面向開發者和企業的API市場——這是AI產業真正的營收中心——Google的性能和價格雙重優勢正在形成越來越大的吸引力。
全平台可用:從API到CLI的完整觸達
Gemini 3.1 Pro和升級版Deep Think目前已通過多個渠道全面開放使用。對於不同類型的用戶,Google提供了完整的觸達路徑。
Gemini API是面向開發者的核心接口,支援RESTful調用和各主流程式語言的SDK。開發者可以直接在自己的應用中集成Gemini 3.1 Pro的全部能力,包括三層思維系統的參數控制。Google AI Studio提供了基於瀏覽器的互動式開發環境,適合原型驗證和模型測試。Gemini CLI是面向終端用戶和開發者的命令列工具,支援直接在開發工作流中調用模型能力。Vertex AI則是Google的企業級AI平台,提供完整的安全性、合規性和可擴展性保障,適合大型企業的生產環境部署。
這種全渠道的可用性策略,反映了Google在AI商業化方面的一個核心理念:降低使用門檻,讓盡可能多的開發者和企業能夠方便地接觸和使用最先進的模型。與OpenAI將部分高端功能限制在高價訂閱層級的做法不同,Google選擇以更開放的姿態推廣其模型,通過規模效應而非高溢價來實現商業目標。
產業影響:AI推理競賽進入新階段
Gemini 3.1 Pro和Deep Think的此次升級,對整個AI產業的競爭格局和發展方向產生了多重深遠影響。
首先,推理能力正式成為AI模型競爭的核心維度。過去的AI模型競爭主要圍繞語言流暢度、知識廣度和多模態能力展開,而ARC-AGI-2成績的持續突破——從去年的個位數百分比到如今的84.6%——表明抽象推理能力已經成為區分頂尖模型的關鍵指標。這一趨勢將深刻影響AI研究的資源分配和技術方向。
其次,「推理即服務」的分層模式可能成為行業標準。Gemini 3.1 Pro的三層思維系統證明了一個重要的工程理念:不是所有問題都需要最深度的推理,而智慧地分配計算資源可以在不犧牲能力的前提下大幅降低成本。可以預期,Anthropic和OpenAI將在未來的模型中引入類似的分層推理機制。
第三,設備端AI代理的時代正在加速到來。AppFunctions的發布,結合Apple近期在Siri和Core AI方面的努力,表明主流科技公司已經形成了一個共識:AI的未來不僅在雲端,更在每個人的設備上。手機、平板、可穿戴設備都將成為AI代理的執行平台。
第四,AI生成內容的多模態化正在全面展開。Lyria 3音樂生成、Nano Banana 2圖像生成、Veo 3.1影片模板的同步發布,展示了Google在文字之外全方位佈局生成式AI的野心。未來的AI產品將不再是「文字聊天機器人」,而是能夠同時理解和生成文字、圖像、音頻和影片的全模態系統。
對香港與大中華區開發者的實際啟示
對於香港和大中華區的開發者、企業和技術決策者而言,Gemini 3.1 Pro的發布帶來了幾個值得立即行動的啟示。
在模型評估方面,開發者應當重新檢視自己的AI技術棧。如果目前依賴的模型在推理能力上落後於Gemini 3.1 Pro,且應用場景對推理品質敏感(如法律分析、金融建模、科學研究),那麼遷移或增加Gemini作為備選模型是一個值得認真考慮的選項。Gemini API的整合複雜度較低,且Google AI Studio提供了方便的快速驗證環境。
在成本優化方面,Gemini 3.1 Pro的低定價策略為高API用量的企業提供了顯著的成本節約空間。尤其是對於需要大量推理計算的應用——如自動化代碼審查、文件分析、客戶服務智能化——三層思維系統的分層定價模式可以大幅降低平均推理成本。
在移動端應用方面,AppFunctions的出現為Android應用開發者開闢了全新的AI整合路徑。隨著Galaxy S26和Pixel 10的Beta測試推進,提前佈局AppFunctions整合的應用開發者,將在設備端AI代理的浪潮中佔據先發優勢。
在多模態內容方面,Lyria 3和Nano Banana 2為內容創作者和品牌營銷團隊提供了前所未有的工具。尤其是Lyria 3的音樂生成能力,對於影視製作、廣告創意和遊戲開發等行業的香港從業者而言,可以顯著降低配樂成本並加速創作流程。
編輯觀點:推理能力的「iPhone時刻」
回顧AI發展的歷程,我們傾向於將Gemini 3.1 Pro和Deep Think的此次升級視為AI推理能力的「iPhone時刻」——不是因為它達到了完美,而是因為它跨越了一個讓普通用戶能夠切實感受到價值的臨界點。
77.1%的ARC-AGI-2得分和84.6%的Deep Think紀錄,意味著AI在面對全新問題時的推理能力已經從「偶爾靈光一閃」提升到了「大多數情況下可靠」的水平。這不是一個學術上的細微差異——它是實際應用場景中「可用」與「不可用」之間的分界線。當一個模型能夠正確解決超過四分之三的全新推理問題時,企業和個人就有理由信任它來處理需要真正思考能力的任務。
三層思維系統的設計更加強化了這一點。它表明Google不僅在追求推理能力的上限,還在思考如何讓這種能力以經濟高效的方式觸達每一個用戶。將Deep Think級別的推理能力以分層方式嵌入一個通用模型、並以市場最低價格提供——這是一種只有對自身技術充滿信心的公司才會做出的決策。
LLMArena十強中獨佔四席、OpenAI據報進入「code red」模式——這些信號共同指向一個事實:2026年的AI競賽格局正在經歷深刻的重組。Google不再是「追趕者」,而是在多個核心維度上確立了領先地位。這對整個產業是好事——更激烈的競爭意味著更快的技術進步、更低的使用成本和更豐富的產品選擇。
然而,我們也需要保持清醒。基準測試的高分不等於現實應用的完美表現;推理能力的提升不意味著幻覺問題的徹底解決;LLMArena的排名可能在下一輪模型發布後再次洗牌。AI的發展是一場馬拉松,而非短跑。但毫無疑問,Google在這場馬拉松的當前階段,跑出了一段令人矚目的加速。
對於每一位關注AI發展的從業者,我們的建議是:不要只關注數字,要親自動手體驗。Gemini 3.1 Pro已經通過Gemini API、Google AI Studio、Gemini CLI和Vertex AI全面開放——去測試它在你自己的使用場景中的表現,用實際體驗而非基準分數來指導你的技術決策。AI推理能力的新紀元已經開啟,而最好的參與方式,永遠是親身實踐。