ARC-AGI-2 得分暴增:從31.1%到77.1%的飛躍

ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)長期以來被視為衡量AI是否具備真正推理能力的黃金標準。與傳統語言基準不同,ARC-AGI-2測試的是模型在面對全新抽象推理題目時的泛化能力——不能靠記憶訓練資料,必須真正「理解」問題結構。

Gemini 3 Pro在ARC-AGI-2上的得分為31.1%,已經算是相當不錯的成績。而3.1 Pro一躍達到77.1%——這不是漸進式改善,而是超過兩倍的跳躍性提升。這個數字意味著模型在面對從未見過的抽象推理問題時,能夠正確解決超過四分之三的題目。

Gemini 3.1 Pro 核心基準成績

  • ARC-AGI-2:77.1%(前代31.1%,增幅148%)
  • GPQA Diamond:94.3%(研究生級科學問題)
  • SWE-Bench Verified:80.6%(真實軟體工程任務)
  • Humanity's Last Exam:44.4%(歷史新高)
  • 16項基準中13項排名第一

三層思維系統:革命性的計算分配架構

Gemini 3.1 Pro最重要的架構創新是全新的三層思維系統(Three-Tier Thinking System),讓模型能根據問題的複雜度動態分配計算資源。這三個層級分別是:

低計算模式(Low Compute)

適用於簡單查詢、事實檢索和日常對話。模型快速回應,消耗最少的計算資源。回應速度與傳統聊天模型相當,但準確度已顯著高於上一代。這個模式下,模型不會啟動深度推理鏈,而是直接從已有知識中提取答案。

中計算模式(Medium Compute)

適用於需要多步驟推理的問題,如數學計算、程式碼分析和邏輯推導。模型會進行適度的內部推理,在速度和深度之間取得平衡。大多數專業工作任務落在這個層級。

高計算模式(High Compute)

面對最具挑戰性的問題——複雜的科學推理、多層次邏輯謎題、困難的程式設計任務——模型會啟動完整的深度推理流程。在這個模式下,模型會探索多條推理路徑、自我驗證、並反覆迭代直到找到最優解。

三層思維的實際意義

這個設計的巧妙之處在於:用戶不需要手動選擇模式。模型會自動評估問題的複雜度,並分配相應的計算資源。簡單問題不會浪費計算預算,困難問題則能獲得充足的「思考時間」。對於API開發者,也可以通過參數手動指定思維層級,實現更精細的成本控制。

基礎能力全面升級

除了推理能力的飛躍,Gemini 3.1 Pro在多項基礎規格上也進行了重大升級:

  • 上下文窗口:維持100萬token(約75萬字),這意味著整本小說、完整程式碼庫或數百頁研究報告都可以一次處理
  • 輸出token:高達65,000個token,是大多數競爭對手的數倍,適合生成長篇分析報告和複雜程式碼
  • 檔案大小限制:從20MB大幅提升至100MB,開發者可以直接上傳更大的檔案進行分析
  • YouTube URL支援:首次支援直接輸入YouTube影片連結進行分析,無需手動轉錄

幻覺問題的突破性改善

AI幻覺(hallucination)一直是大型語言模型最令人頭痛的問題。Gemini 3.1 Pro在這方面取得了里程碑式的進展:幻覺率從前代的約88%降至50%。

雖然50%的幻覺率仍然意味著模型在某些情況下會生成不準確的信息,但從88%降至50%代表了接近一半的改善幅度。Google DeepMind指出,這主要歸功於三層思維系統中的自我驗證機制——在高計算模式下,模型會主動檢查自己的輸出是否與已知事實一致。

對專業應用的影響

幻覺率的大幅下降對醫療、法律、金融等對準確性要求極高的專業領域意義重大。雖然還不能完全取代人類審核,但降低的幻覺率意味著AI輔助工作的可信度顯著提升,人類審核的工作量也相應減少。

專用代理端點:為AI Agent時代而生

Gemini 3.1 Pro推出了專門的「代理端點」(Agentic Endpoint),這是專為AI Agent應用場景優化的API接口。這個端點支援更持久的上下文管理、工具調用優化以及多步驟任務規劃。

在AI Agent成為2026年最熱門技術趨勢的背景下,這個專用端點讓開發者能夠更輕鬆地構建能夠自主完成複雜任務的AI助手——無論是自動化客戶服務、程式碼審查還是研究分析。

定價策略:免費升級,維持不變

令人驚訝的是,儘管能力大幅提升,Google選擇維持與前代完全相同的定價:

Gemini 3.1 Pro 定價

  • 輸入:$2 / 百萬token
  • 輸出:$12 / 百萬token
  • 升級方式:現有Gemini 3 Pro用戶免費自動升級

這個定價策略極具攻擊性。考慮到性能的大幅提升,等效的「每單位智能成本」實際上大幅下降。這對Anthropic的Claude Opus 4.6和OpenAI的GPT-5.2形成了直接的價格壓力。

競爭格局分析:三強鼎立

Gemini 3.1 Pro的發布進一步鞏固了2026年AI模型市場的三強格局:

Google Gemini 3.1 Pro

在純粹的基準測試數量上佔據優勢,16項中13項第一。三層思維系統提供了獨特的計算效率。YouTube和大檔案支援是獨有的差異化功能。Google生態系統的整合優勢不可忽視。

Anthropic Claude Opus 4.6

在程式碼生成和複雜長文本分析上仍然極具競爭力。安全性和可控性方面處於領先地位。Agent能力方面擁有深厚的技術積累和開發者生態。

OpenAI GPT-5.2

龐大的用戶基礎和成熟的產品體驗。ChatGPT品牌的消費者認知度最高。多模態能力全面且穩定。

對開發者和企業的啟示

Gemini 3.1 Pro的發布對技術決策者帶來幾個重要啟示:

  • 多模型策略成為必要:三家頂級模型各有所長,企業不應過度依賴單一供應商
  • 推理能力成為核心指標:ARC-AGI-2這類測試泛化推理能力的基準將變得越來越重要
  • 代理應用加速落地:專用代理端點降低了AI Agent開發的門檻
  • 成本持續下降:同等定價下獲得更強的模型,AI應用的經濟可行性持續提升

結語:推理能力的質變時刻

Gemini 3.1 Pro不僅僅是一次版本升級——ARC-AGI-2得分翻倍、三層思維系統、幻覺率減半——這些進步加在一起代表的是AI推理能力的質變。當一個模型能夠在面對從未見過的抽象問題時達到77.1%的正確率,我們距離真正的通用推理能力又近了一步。

2026年的AI競賽已經不再只是比拼參數規模,而是比拼推理深度、計算效率和實際應用價值。Gemini 3.1 Pro的發布,讓這場競賽變得更加激烈,也更加精彩。