OpenAI GPT-5.4「思考」模型在 GDPVal 基準達83%,首度在經濟性任務超越人類專家
OpenAI GPT-5.4 Thinking model scores 83% on GDPVal benchmark, surpassing human expert level
OpenAI 正式推出 **GPT-5.4「思考」(Thinking)**模型,這款整合了深度推理、程式設計和代理工作流程的旗艦模型,在業界最受關注的 AI 能力測試之一 GDPVal 基準測試中取得 83.0% 的高分,被認為是 AI 在「具有真實經濟價值的任務」上首次系統性達到人類專家水準。
GDPVal:衡量 AI 真實生產力的基準
GDPVal(Gross Domestic Product Value Benchmark)不同於傳統的 AI 測試,它不評估數學謎題或知識問答,而是測量 AI 在具有實際經濟價值的工作任務上的表現,包括商業分析、程式開發、法律文書起草、財務建模和醫療文件處理等。
83% 的分數意味著:在這些工作任務的標準化測試中,GPT-5.4 在大約 5 次任務中完成 4 次達到甚至超越人類專業工作者的水準。
主要能力提升
超長上下文:支援最長 100萬 Token 的上下文視窗,可一次處理整份法律合約、完整程式庫或厚重研究報告。整合代理工作流程:模型能夠自主拆解複雜多步驟任務,依序調用工具,並在出現錯誤時自動重試。ChatGPT 應用整合:新模型直接驅動 ChatGPT 中的試算表生成、簡報製作和文件分析功能,以及正在測試中的 ChatGPT for Excel 功能。
對勞動市場的意涵
83% 的 GDPVal 分數在勞動經濟學家之間引發嚴肅討論:當 AI 在多數專業任務上達到人類專家水準,「AI 補充人類工作」的敘事是否將加速轉向「AI 替代人類工作」?這一問題在2026年沒有定論,但已無法迴避。