Perplexity發布DRACO基準：深度研究AI性能新標準

為什麼需要DRACO？

隨著AI深度研究工具的普及，如何評估這些工具的真實能力成為一個挑戰。現有的AI基準測試主要關注單一回答的準確性，而深度研究需要綜合多個來源、進行複雜分析並生成結構化報告。

DRACO基準測試旨在填補這一空白，提供一個基於用戶實際使用方式的評估框架。

DRACO基準設計

DRACO包含100個精心策劃的任務，涵蓋10個領域：

學術：研究文獻綜述和分析
金融：市場分析和投資研究
法律：案例研究和法規分析
醫學：臨床指南和研究綜述
技術：技術評估和比較分析
通識：跨領域知識整合
UX設計：用戶研究和設計分析
個人助理：複雜任務規劃
購物/產品比較：多產品評估
大海撈針：精確信息檢索

每個任務配有專家制定的評分標準，平均包含約40個評估指標，涵蓋四個維度：

事實準確性
分析廣度和深度
呈現質量
引用質量

專家驅動的評估

DRACO的評分標準由26位領域專家創建和驗證，包括醫療專業人員、律師、金融分析師、軟件工程師和設計師。每個任務都經過多階段迭代審查和任務級飽和測試。

任務來源於Perplexity Deep Research的實際用戶查詢，經過系統化的重新表述、增強和過濾，以確保嚴謹性並移除個人可識別信息。

基準測試結果

首批測試結果顯示Perplexity在深度研究領域的領先地位：

                    DRACO基準得分（標準化）
                    Perplexity Deep Research：67.15%
Google Gemini Deep Research：58.97%
OpenAI Deep Research（o3）：52.06%

                

Perplexity在所有領域都取得了最高通過率，在法律（89.4%）和學術（82.4%）領域表現尤為突出。在醫學、通識和技術領域，Perplexity與第二名的差距達到9至12個百分點。

升級至Claude Opus 4.5

與DRACO發布同時，Perplexity宣布Deep Research工具升級至Anthropic的Claude Opus 4.5模型，並整合了公司專有的搜索引擎和沙箱基礎設施。

這一升級立即對Max訂閱用戶開放，Pro用戶將在未來幾天獲得訪問權限。

開源承諾

Perplexity將DRACO完全開源，包括：

完整的基準測試套件
所有評分標準
評判提示（judge prompt）

數據集已在Hugging Face上公開發布，任何人都可以使用這一基準來評估自己的深度研究工具。

對AI研究工具的影響

DRACO的發布對AI研究工具市場有幾重意義：

標準化評估：提供了行業首個開放的深度研究性能標準
競爭透明：用戶可以基於客觀數據選擇工具
推動創新：明確的基準將激勵各公司改進產品
品質保證：為企業採購決策提供參考

對香港專業人士的啟示

深度研究AI工具對香港的專業人士有重要價值：

金融分析師：快速進行市場研究和競爭分析
律師：法律研究和案例分析
學術研究者：文獻綜述和跨領域研究
諮詢顧問：行業分析和戰略研究

DRACO基準可以幫助這些專業人士選擇最適合其需求的深度研究工具。

結語：研究AI的新時代

DRACO的發布標誌著AI研究工具進入成熟期。隨著這些工具變得越來越強大，擁有標準化的評估方法變得至關重要。

對於知識工作者而言，AI深度研究工具正在從「輔助」轉向「必備」。DRACO確保我們能夠客觀地評估和選擇這些工具，而不僅僅依賴於營銷宣傳。