OpenAI GPT-5.4「思考」模型在 GDPVal 基準達83%，首度在經濟性任務超越人類專家

OpenAI 正式推出 **GPT-5.4「思考」（Thinking）**模型，這款整合了深度推理、程式設計和代理工作流程的旗艦模型，在業界最受關注的 AI 能力測試之一 GDPVal 基準測試中取得 83.0% 的高分，被認為是 AI 在「具有真實經濟價值的任務」上首次系統性達到人類專家水準。

GDPVal：衡量 AI 真實生產力的基準

GDPVal（Gross Domestic Product Value Benchmark）不同於傳統的 AI 測試，它不評估數學謎題或知識問答，而是測量 AI 在具有實際經濟價值的工作任務上的表現，包括商業分析、程式開發、法律文書起草、財務建模和醫療文件處理等。

83% 的分數意味著：在這些工作任務的標準化測試中，GPT-5.4 在大約 5 次任務中完成 4 次達到甚至超越人類專業工作者的水準。

主要能力提升

超長上下文：支援最長 100萬 Token 的上下文視窗，可一次處理整份法律合約、完整程式庫或厚重研究報告。整合代理工作流程：模型能夠自主拆解複雜多步驟任務，依序調用工具，並在出現錯誤時自動重試。ChatGPT 應用整合：新模型直接驅動 ChatGPT 中的試算表生成、簡報製作和文件分析功能，以及正在測試中的 ChatGPT for Excel 功能。

對勞動市場的意涵

83% 的 GDPVal 分數在勞動經濟學家之間引發嚴肅討論：當 AI 在多數專業任務上達到人類專家水準，「AI 補充人類工作」的敘事是否將加速轉向「AI 替代人類工作」？這一問題在2026年沒有定論，但已無法迴避。