@Kimi_Moonshot·研究·2026年1月30日

MoonshotAI、Kimi K2.5の技術レポートを公開ビジョン・エージェントでブレークスルー

MoonshotAIはKimi K2.5の技術レポートを公開した。このレポートでは、15兆トークンで事前学習したテキスト・ビジョンの共同訓練、4.5倍低いレイテンシの並列エージェントスウォーム、高効率ビデオエンコーディング、トークン節約型強化学習などの革新が示されている。これらの進展は、スケーラブルで実世界のエージェント知能の実現を目指している。

MoonshotAIは、Kimi.ai大規模言語モデルプラットフォームを運営する企業であり、Kimi K2.5の技術レポートを公開した。このレポートでは、マルチモーダルAI機能とエージェントシステムにおいて顕著な進展が概説されている。

主なハイライトは、15兆のビジョン・テキストトークンで事前学習したモデルのテキスト・ビジョン共同訓練アプローチである。これに続き、追加のビジョン特化訓練データを使わずテキストのみのデータによるゼロ・ビジョン監督ファインチューニングにより、視覚推論能力が活性化される。

レポートでは、Agent SwarmとPARLを組み合わせたシステムが紹介されており、並列サブエージェントを動的にオーケストレーションする。これにより、最大4.5倍低いレイテンシが実現され、BrowseCompベンチマークで78.4%のパフォーマンスを達成し、複雑なタスクでの効率向上が示された。

もう一つの革新はMoonViT-3Dで、4倍の時間圧縮を特徴とする統一画像・ビデオエンコーダーである。これにより、同じコンテキスト長内で4倍長いビデオの処理が可能となり、動的視覚コンテンツの能力が向上する。

さらに、Toggleはトークン効率の高い強化学習を採用し、精度を維持しつつトークン使用量を25-30%削減する。これらの手法は一体となって、スケーラブルで実世界のエージェント知能に向けた推進力を生む。

技術レポート全文はGitHubで公開されており、研究者や開発者が手法と結果を詳細に探求できる。

重要ポイント

15兆のビジョン・テキストトークンで事前学習
視覚推論のためのゼロ・ビジョンSFT（テキストのみ）
Agent Swarm + PARL：最大4.5倍低いレイテンシ
BrowseCompで78.4%
MoonViT-3D：4倍時間圧縮、4倍長いビデオ
Toggle：25–30%少ないトークン、精度低下なし

トピック

Kimi.aiMoonshotAIMultimodal AIAI Agents

Original Post

Loading post...