Perplexity AI、Deep Researchを最先端性能にアップグレードしDRACOベンチマークを公開
Perplexity AIはDeep Research機能をアップグレードし、ベンチマークで最先端性能を達成し競合を上回りました。同社は10ドメインにわたる100タスクのオープンソースDRACOベンチマークも公開しました。
Perplexity AIはDeep Research機能をアップグレードし、主要な外部ベンチマークで最先端性能を達成し、他のdeep researchツールを精度と信頼性で上回りました。
このアップグレードは、最適な利用可能なモデルをPerplexityの独自検索エンジンとサンドボックスインフラと組み合わせています。Deep ResearchはMaxおよびProユーザー向けにOpus 4.5で動作し、上位推論モデルが利用可能になり次第アップグレード予定です。Maxサブスクライバー向けに即時利用可能で、Proユーザーには近日中に展開されます。
アップグレードに合わせて、Perplexityは実際のdeep research使用に基づく新しいオープンソースフレームワーク、Deep Research Accuracy, Completeness, and Objectivity (DRACO)ベンチマークを公開しました。従来のベンチマークが事実検索やトリビアなどの孤立したスキルをテストするのに対し、DRACOは複数ソースの統合、ニュアンスのある分析、正確なソース引用を評価します。
DRACOはAcademic、Finance、Law、Medicine、Technology、General Knowledge、UXなどの10ドメインにわたる100タスクを含みます。DRACO評価では、Perplexity Deep Researchが全ドメインで全競合を上回り、特にLaw、Medicine、Academicで優れた性能を示しました。
ベンチマーク、ルーブリック、方法論は完全にオープンソースです。方法論と詳細結果のフルペーパーが公開されており、データセットはHugging Faceで利用可能です。
重要ポイント
- Deep Researchが外部ベンチマークで最先端性能を達成
- 精度と信頼性で競合を上回る
- Maxユーザー向けに即時利用可能、Proへ近日展開
- Opus 4.5で動作
- DRACOベンチマーク:10ドメインにわたる100タスク
- 全ドメインで全競合を上回る、特にLaw、Medicine、Academicで優位
- DRACOは完全にオープンソース、データセットはHugging Faceで公開
