為什麼需要DRACO?
隨著AI深度研究工具的普及,如何評估這些工具的真實能力成為一個挑戰。現有的AI基準測試主要關注單一回答的準確性,而深度研究需要綜合多個來源、進行複雜分析並生成結構化報告。
DRACO基準測試旨在填補這一空白,提供一個基於用戶實際使用方式的評估框架。
DRACO基準設計
DRACO包含100個精心策劃的任務,涵蓋10個領域:
- 學術:研究文獻綜述和分析
- 金融:市場分析和投資研究
- 法律:案例研究和法規分析
- 醫學:臨床指南和研究綜述
- 技術:技術評估和比較分析
- 通識:跨領域知識整合
- UX設計:用戶研究和設計分析
- 個人助理:複雜任務規劃
- 購物/產品比較:多產品評估
- 大海撈針:精確信息檢索
每個任務配有專家制定的評分標準,平均包含約40個評估指標,涵蓋四個維度:
- 事實準確性
- 分析廣度和深度
- 呈現質量
- 引用質量
專家驅動的評估
DRACO的評分標準由26位領域專家創建和驗證,包括醫療專業人員、律師、金融分析師、軟件工程師和設計師。每個任務都經過多階段迭代審查和任務級飽和測試。
任務來源於Perplexity Deep Research的實際用戶查詢,經過系統化的重新表述、增強和過濾,以確保嚴謹性並移除個人可識別信息。
基準測試結果
首批測試結果顯示Perplexity在深度研究領域的領先地位:
DRACO基準得分(標準化)
- Perplexity Deep Research:67.15%
- Google Gemini Deep Research:58.97%
- OpenAI Deep Research(o3):52.06%
Perplexity在所有領域都取得了最高通過率,在法律(89.4%)和學術(82.4%)領域表現尤為突出。在醫學、通識和技術領域,Perplexity與第二名的差距達到9至12個百分點。
升級至Claude Opus 4.5
與DRACO發布同時,Perplexity宣布Deep Research工具升級至Anthropic的Claude Opus 4.5模型,並整合了公司專有的搜索引擎和沙箱基礎設施。
這一升級立即對Max訂閱用戶開放,Pro用戶將在未來幾天獲得訪問權限。
開源承諾
Perplexity將DRACO完全開源,包括:
- 完整的基準測試套件
- 所有評分標準
- 評判提示(judge prompt)
數據集已在Hugging Face上公開發布,任何人都可以使用這一基準來評估自己的深度研究工具。
對AI研究工具的影響
DRACO的發布對AI研究工具市場有幾重意義:
- 標準化評估:提供了行業首個開放的深度研究性能標準
- 競爭透明:用戶可以基於客觀數據選擇工具
- 推動創新:明確的基準將激勵各公司改進產品
- 品質保證:為企業採購決策提供參考
對香港專業人士的啟示
深度研究AI工具對香港的專業人士有重要價值:
- 金融分析師:快速進行市場研究和競爭分析
- 律師:法律研究和案例分析
- 學術研究者:文獻綜述和跨領域研究
- 諮詢顧問:行業分析和戰略研究
DRACO基準可以幫助這些專業人士選擇最適合其需求的深度研究工具。
結語:研究AI的新時代
DRACO的發布標誌著AI研究工具進入成熟期。隨著這些工具變得越來越強大,擁有標準化的評估方法變得至關重要。
對於知識工作者而言,AI深度研究工具正在從「輔助」轉向「必備」。DRACO確保我們能夠客觀地評估和選擇這些工具,而不僅僅依賴於營銷宣傳。