@OpenBMB·製品·2026年2月12日

MiniCPM-SALA：OpenBMBのハイブリッドモデルが長文脈を制す

OpenBMBは、MiniCPM-SALA（9B）をリリースしました。これは大規模訓練された初の疎線形注意ハイブリッドモデルで、フル注意モデルと同等の性能を保ちつつ推論コストを削減します。長文脈ベンチマークで平均38.97点のトップ成績を収め、3.5倍の高速化を実現しています。

OpenBMBは、業界初の大規模訓練された疎線形注意ハイブリッドアーキテクチャを採用した9Bパラメータモデル、MiniCPM-SALAを発表しました。この革新は、従来のTransformerモデルの二次方的計算複雑度やキー・バリューキャッシュのボトルネックという主要な制約を解消し、コアロジック能力を損なわずに優れた長文脈性能を実現します。

MiniCPM-SALAは、基本タスクでフル注意モデルと同等の性能を発揮しつつ、推論コストを大幅に低減します。長文脈理解評価では、Qwen3やNemotronなどの8B-9Bクラス競合を上回り、ベンチマーク平均スコア38.97を達成しました。

超長文脈スケーリングでも優位で、YaRNなどの追加手法なしに1000KトークンでRULERスコア86.3、2048Kトークンで81.6を記録しています。また、256Kシーケンス長でQwen3-8B比3.5倍のエンドツーエンド高速化を提供します。

標準モデルが128Kトークンを超えるとメモリ不足（OOM）エラーを起こすのに対し、MiniCPM-SALAはA6000Dや5090などのGPU上で100万トークンでの安定した低遅延推論を維持します。この能力は、数学・コーディングからエッジデバイス上での1M文脈処理まで多様な用途に及びます。

開発者はHugging FaceでMiniCPM-SALAにアクセスし、ハイブリッドアーキテクチャを試用してフィードバックを提供できます。

重要ポイント

9Bパラメータ
初の大規模疎線形注意ハイブリッドモデル
長文脈平均スコア：38.97（Qwen3、Nemotronを上回る）
RULERスコア：1000Kで86.3、2048Kで81.6
Qwen3-8B比3.5倍高速化（256K時）
A6000D/5090 GPU上で1Mトークン安定推論

トピック

MiniCPMSALALLMTransformers

Original Post

Loading post...