Cognition、SWE-1.6プレビューを公開:SWE-Bench Proでオープンソース最先端を上回る
CognitionはSWE-1.6トレーニング実行の早期プレビューを公開し、同じ950トークン/秒の速度でSWE-1.5を大幅に上回り、SWE-Bench Proでトップのオープンソースモデルを超えました。過剰思考の問題を抱えつつ、Windsurfの選抜ユーザー向けに早期アクセスを提供しています。
ソフトウェアエンジニアリングタスク向け先進モデルを開発するAIラボのCognitionは、SWE-1.6トレーニング実行の早期プレビューを公開しました。
このプレビューモデルは、同じ事前訓練ベースでのポストトレーニングによりSWE-1.5を大幅に向上させ、推論速度を950トークン/秒で維持しています。SWE-Bench Proベンチマークでは、主要なオープンソースモデルを上回っています。
これらの進展にもかかわらず、モデルは過剰思考や過度な自己検証などの課題を示しており、Cognitionはこれをさらに改善する予定です。
主な進歩は、強化学習レシピの洗練とインフラのスケーリングによるもので、SWE-1.5で使用した計算量の2桁多い—100倍のコンピュートを解禁しました。RL環境の数を大幅に拡大し、長期トレーニングで継続的な性能向上を確認しています。
トレーニング効率は急上昇し、スタックは3ヶ月前の6倍の速度で動作します。高staleness耐性などの最適化により、推論エンジンの完全活用が可能になりました。
評価では、SWE-1.6が困難なSWE-Bench Pro問題でより深く考え、多ターン反復する能力を示しています。一方、内部ドッグフォーディングでは過剰思考が観察され、インタラクティビティと効率のバランス調整が進められています。
Windsurf—Cognitionのプラットフォーム—で少数のユーザーに対し早期アクセスを提供中です。評価と技術詳細は付属ブログ投稿で公開されています。
重要ポイント
- SWE-1.6はSWE-1.5を大幅に向上
- 同一事前訓練モデルでのポストトレーニング
- 推論速度950トークン/秒
- SWE-Bench Proでトップオープンソースモデルを上回る
- SWE-1.5比100倍のコンピュート
- 3ヶ月前比6倍速いトレーニングスタック
- Windsurfで少数の早期アクセス
