コグニション、Devin 2.0を公開-SWE-Bench Verifiedで記録的45.8%達成
コグニションは画期的なAIソフトウェアエンジニアの最新版Devin 2.0を発表し、SWE-Bench Verifiedベンチマークで45.8%の解決率という新記録を樹立した。
コグニション・ラボは、自律型コーディング性能の新基準を打ち立てるAIソフトウェアエンジニアDevin 2.0を公開した。
このアップグレード版モデルは、SWE-Bench Verifiedで45.8%の解決率を獲得し、従来の最先端スコアを2倍以上に引き上げ、初代Devinの有効性を3倍以上に向上させた。
SWE-Bench Verifiedは、著名なPythonリポジトリからの500件の実GitHubイシューを用い、人間の支援なしにバグ修正のための完全なコードベース変更を要求する厳格な評価フレームワークである。
ベンチマークを超え、Devin 2.0はデータベースと認証機能を備えたフルスタックeコマースプラットフォームを6時間未満で自律的に構築したり、オープンソースリポジトリにマージされたプルリクエストを送信したりする実務能力を示している。
2024年に初代Devinを発売して以来、元OpenAIメンバーで構成されるコグニションは、エンタープライズ展開と反復改善を通じて技術を洗練してきた。
Devin 2.0の主な進化点には、多段階推論の強化、先進ツール統合、10万行を超えるリポジトリに対応する拡張コンテキスト処理が含まれる。
これらの機能を支えるのは、合成コード生成と反復的自己改善を特徴とする新たな訓練手法で、50億トークン以上の多様なプログラミングデータを活用している。
エンタープライズ顧客向けにDevin 2.0のアクセスが即時開始され、間もなく拡大展開が予定されている。
重要ポイント
- SWE-Bench Verifiedで45.8%解決
- 初代Devin比3倍以上の性能
- 10万行超コードベース対応
- 50億トークン以上で訓練
- eコマースサイトを6時間未満で構築
トピック
DevinAI software engineerSWE-Benchcoding benchmarksautonomous agentsAI coding
Original Post
Loading post...