@MistralAI·製品·2026年2月4日

Mistral AI、音声エージェント向けVoxtral Realtimeをサブ200ms遅延でリリース、オープンウェイト公開

Mistral AIは音声エージェント向けにVoxtral Realtimeをリリースし、サブ200msの設定可能遅延とオフライン精度に近い性能を実現。また、最良の価格性能比で$0.003/分のVoxtral Mini Transcribe 2も発表した。

Mistral AIは、音声エージェントおよびライブアプリケーション向けにVoxtral Realtimeを発表した。このモデルはネイティブストリーミングアーキテクチャを採用し、200ミリ秒未満まで遅延を調整可能だ。480msの遅延で、オフラインモデル比1-2%以内の単語誤り率（WER）を達成する。同モデルはApache 2.0ライセンスの下でオープンウェイトとして公開され、開発者の活用を促進する。

併せて、Voxtral Mini Transcribe 2を導入した。これはバッチ転写APIで最高の価格性能比を実現し、FLEURSベンチマークで4%のWERを$0.003/分で記録する。主要機能として話者分離、文脈バイアス、単語レベルのタイムスタンプを備え、13言語に対応する。

開発者はMistral Studioの新オーディオプレイグラウンドでVoxtral Mini Transcribe 2を即座に試用可能だ。音声ファイルをアップロードし、分離を切り替え、文脈バイアスを適用して瞬時に転写を取得できる。

両モデルはAPI経由で即時利用可能：Voxtral Mini Transcribe 2は$0.003/分、Voxtral Realtimeは$0.006/分で、リタイムモデルはオープンウェイト付き。このリリースはリアルタイム音声処理と効率的な転写機能を強化する。

重要ポイント

Voxtral Realtime: 調整可能遅延サブ200ms
Voxtral Realtime: 480msでオフラインモデル比1-2% WER
Voxtral Realtime: Apache 2.0でオープンウェイト公開
Voxtral Mini Transcribe 2: FLEURSで4% WER、$0.003/分
話者分離、文脈バイアス、単語レベルタイムスタンプ、13言語対応
API料金: Mini Transcribe 2 $0.003/分、Realtime $0.006/分

トピック

Mistral AIVoxtralspeech-to-textvoice agentstranscriptionopen sourceAI models

Original Post

Loading post...