為什麼需要DRACO?

隨著AI深度研究工具的普及,如何評估這些工具的真實能力成為一個挑戰。現有的AI基準測試主要關注單一回答的準確性,而深度研究需要綜合多個來源、進行複雜分析並生成結構化報告。

DRACO基準測試旨在填補這一空白,提供一個基於用戶實際使用方式的評估框架。

DRACO基準設計

DRACO包含100個精心策劃的任務,涵蓋10個領域:

  • 學術:研究文獻綜述和分析
  • 金融:市場分析和投資研究
  • 法律:案例研究和法規分析
  • 醫學:臨床指南和研究綜述
  • 技術:技術評估和比較分析
  • 通識:跨領域知識整合
  • UX設計:用戶研究和設計分析
  • 個人助理:複雜任務規劃
  • 購物/產品比較:多產品評估
  • 大海撈針:精確信息檢索

每個任務配有專家制定的評分標準,平均包含約40個評估指標,涵蓋四個維度:

  • 事實準確性
  • 分析廣度和深度
  • 呈現質量
  • 引用質量

專家驅動的評估

DRACO的評分標準由26位領域專家創建和驗證,包括醫療專業人員、律師、金融分析師、軟件工程師和設計師。每個任務都經過多階段迭代審查和任務級飽和測試。

任務來源於Perplexity Deep Research的實際用戶查詢,經過系統化的重新表述、增強和過濾,以確保嚴謹性並移除個人可識別信息。

基準測試結果

首批測試結果顯示Perplexity在深度研究領域的領先地位:

DRACO基準得分(標準化)

  • Perplexity Deep Research:67.15%
  • Google Gemini Deep Research:58.97%
  • OpenAI Deep Research(o3):52.06%

Perplexity在所有領域都取得了最高通過率,在法律(89.4%)和學術(82.4%)領域表現尤為突出。在醫學、通識和技術領域,Perplexity與第二名的差距達到9至12個百分點。

升級至Claude Opus 4.5

與DRACO發布同時,Perplexity宣布Deep Research工具升級至Anthropic的Claude Opus 4.5模型,並整合了公司專有的搜索引擎和沙箱基礎設施。

這一升級立即對Max訂閱用戶開放,Pro用戶將在未來幾天獲得訪問權限。

開源承諾

Perplexity將DRACO完全開源,包括:

  • 完整的基準測試套件
  • 所有評分標準
  • 評判提示(judge prompt)

數據集已在Hugging Face上公開發布,任何人都可以使用這一基準來評估自己的深度研究工具。

對AI研究工具的影響

DRACO的發布對AI研究工具市場有幾重意義:

  • 標準化評估:提供了行業首個開放的深度研究性能標準
  • 競爭透明:用戶可以基於客觀數據選擇工具
  • 推動創新:明確的基準將激勵各公司改進產品
  • 品質保證:為企業採購決策提供參考

對香港專業人士的啟示

深度研究AI工具對香港的專業人士有重要價值:

  • 金融分析師:快速進行市場研究和競爭分析
  • 律師:法律研究和案例分析
  • 學術研究者:文獻綜述和跨領域研究
  • 諮詢顧問:行業分析和戰略研究

DRACO基準可以幫助這些專業人士選擇最適合其需求的深度研究工具。

結語:研究AI的新時代

DRACO的發布標誌著AI研究工具進入成熟期。隨著這些工具變得越來越強大,擁有標準化的評估方法變得至關重要。

對於知識工作者而言,AI深度研究工具正在從「輔助」轉向「必備」。DRACO確保我們能夠客觀地評估和選擇這些工具,而不僅僅依賴於營銷宣傳。