Anthropic:Claude 在人類監督下 14 天完成可發表的粒子物理學論文

Anthropic demonstrates Claude completing publishable physics paper in two weeks under human supervision

Anthropic 近日公開了一項具里程碑意義的 AI 代理能力展示:Claude 在人類研究員的監督下,僅用兩週時間完成了一篇正常需要一位博士生花費一整年的粒子物理學研究論文,品質達到可投期刊發表的水準。

270 次對話、110 次以上草稿修訂

這項研究的規模超乎想像。整個過程歷經:

  • 270 次 Claude 與人類研究員的獨立對話(sessions)
  • 超過 110 次草稿修改迭代
  • Claude 自主完成文獻檢索、數學推導、程式碼撰寫(用於數值模擬)、結果分析與論文撰寫

人類研究員的角色主要是:設定研究方向、評估每個階段的輸出品質、並在 Claude 遇到需要物理直覺判斷的分叉點時給予指引。

「二年級物理博士生」水準

Anthropic 將 Claude 在此任務中的表現形容為達到**「物理學博士課程二年級研究生」**的工作能力:不只能夠理解現有文獻,更能提出研究問題、設計分析方法,並在反覆試錯中推進研究進展。

論文的核心物理內容由 Claude 獨立生成,人類監督確保了研究方向的正確性與最終結論的嚴謹性。

為何這件事意義重大

這項展示的重要性不僅在於速度(一年壓縮成兩週),更在於品質的可驗證性:粒子物理學是高度形式化、可被同行審查的學科,不像文字類任務容易以流暢的語言掩蓋錯誤。

Anthropic 的展示意味著,AI 代理系統已從「可回答問題的工具」進化為「可主動推進研究的協作者」,而這在一年前幾乎是不可想像的能力邊界。

對科學研究的影響

這一突破引發學界對多個問題的討論:

  • 研究效率革命:若 AI 可在數週內完成學術論文,博士生的培育模式、論文評審制度是否需要全面重構?
  • 可信度問題:AI 生成的學術研究如何建立信任、揭露貢獻邊界?
  • 人才結構轉變:「執行型」研究者的角色是否將逐步轉向「AI 指揮者」?

Anthropic 表示,這項研究旨在理解 Claude 在長期、高複雜度任務中的真實能力邊界,並將繼續探索 AI 在科學發現中的潛力與風險。