Alibaba Qwen、長期ホライゾンAIプランニング向けDeepPlanningベンチマークを公開
AlibabaのQwenチームは、時間予算やコストなどの現実世界のグローバル制約を伴う長期ホライゾンプランニングをAIエージェントにテストするベンチマークDeepPlanningを公開した。GPT-5.2、Claude 4.5、Gemini、Qwen3を含む主要モデルは、多日旅行や複雑なショッピングなどのタスクで大きな課題に直面している。
AlibabaのQwenチームは、現実的なシナリオにおける長期ホライゾンエージェントプランニングを評価するための新たなベンチマークDeepPlanningを公開した。従来のステップバイステップの推論タスクとは異なり、DeepPlanningは、計画全体で満たされなければならない検証可能なグローバル制約、すなわち時間予算、コスト上限、組合せ最適化を重視している。
このベンチマークは、分単位のスケジューリングを伴う多日旅行プランニングや厳格な時間・予算上限を特徴とする厳しいタスクを備えている。もう一つのシナリオは、最適性を達成するためにクーポンの積み重ねやアイテムのバンドリングを必要とする複雑なショッピングである。これらの課題は、積極的な情報収集、ローカル制約の満足、グローバル最適性の達成を要求する。
DeepPlanningでは、先進的な大規模言語モデルでさえ大幅に苦戦している。GPT-5.2、Claude 4.5、Gemini、Qwen3などのモデルは低パフォーマンスを示しており、エージェントプランニング、ツール使用、長期ホライゾン推論における現在の能力のギャップを浮き彫りにしている。
Alibabaのオープンソース大規模言語モデルシリーズであるQwenは、AIエージェント開発の限界を押し広げ続けている。DeepPlanningは、これらの分野での進捗を測定するための厳格な評価フレームワークを提供し、複雑で多段階の実世界問題を扱うAIシステムのベンチマークと改善を研究者に可能にする。
ベンチマークのリソースは公開されている。研究論文はarXivにホストされており、リーダーボードはQwen-Agentベンチマークページでモデルパフォーマンスを追跡し、データセットはHugging FaceおよびModelScopeのQwen名前空間でアクセス可能である。
この公開は、制約条件下での複雑なプランニングを管理できるAIエージェントの進化に向けた専門ベンチマークの重要性が高まっていることを強調している。
重要ポイント
- 長期ホライゾンエージェントプランニングのためのDeepPlanningベンチマーク
- グローバル制約:時間予算、コスト上限、組合せ最適化
- シナリオ:分単位スケジューリング付き多日旅行、クーポン積み重ね&アイテムバンドリング付き複雑ショッピング
- 必要:積極的な情報収集、ローカル制約満足、グローバル最適性
- トップモデルが苦戦:GPT-5.2、Claude 4.5、Gemini、Qwen3