MiniMax AI、コーディング・検索ベンチマークで最高性能のオープンソースモデル「M2.5」を発表
MiniMax AIは、実世界の生産性向けに最適化されたオープンソースの最先端モデル「M2.5」を発表しました。コーディング(SWE-Bench Verified 80.2%)、検索(BrowseComp 76.3%)、ツール呼び出し(BFCL 76.8%)で最高レベルのスコアを達成しています。1時間あたり1ドル、100トークン/秒で、長期的エージェントの経済的なスケーリングを可能にします。
MiniMax AIは、実世界の生産性タスク向けに設計されたオープンソースの最先端モデル「M2.5」を発表しました。このモデルは、主要ベンチマークで最高性能(SOTA)を達成しており、コーディングのSWE-Bench Verifiedで80.2%、検索のBrowseCompで76.3%、エージェントツール呼び出しのBerkeley Function Calling Leaderboard(BFCL)で76.8%を記録しています。また、オフィスワークのシナリオでも優れた性能を発揮します。
効率性を最適化したM2.5は、複雑なタスクで前モデル比37%高速に処理します。1時間あたり1ドルで100トークン/秒(tps)をサポートし、長期的エージェントの無限スケーリングを初めて経済的に実現可能にしました。
さらに、MiniMax AIはVIBEベンチマークをタスクの複雑さ、ドメインカバー率、評価指標を大幅に強化したVIBE-Proにアップグレードしました。この新ベンチマークでM2.5は、主要プロプライエタリモデルであるOpus 4.5と同等の性能を示しました。
同社は、複雑な自律タスクの処理には効果的な検索とツール呼び出しが不可欠だと強調。BrowseCompとBFCLでの業界トップ成績がその強みを裏付けています。
経済全体でのAI普及を促進するため、MiniMaxは各種知識労働分野の業界専門家と協力して内部ベンチマークを開発しました。M2.5は前モデルM2.1比で大幅改善し、現行最先端モデルと同等レベルに到達しています。
M2.5はMiniMax Agentプラットフォーム、API、専用CodingPlanサブスクリプションで利用可能です。このリリースにより、MiniMax AIはコーディング、エージェント、生産性アプリケーション向けの実用的でスケーラブルなAIソリューションの最前線に位置づけられました。
重要ポイント
- SWE-Bench Verified: 80.2%
- BrowseComp: 76.3%
- BFCL: 76.8%
- 複雑タスクで37%高速
- $1/時間、100 tps
- VIBE-ProでOpus 4.5と同等
- M2.1比で大幅改善
