Mistral AI、音声エージェント向けVoxtral Realtimeをサブ200ms遅延でリリース、オープンウェイト公開
Mistral AIは音声エージェント向けにVoxtral Realtimeをリリースし、サブ200msの設定可能遅延とオフライン精度に近い性能を実現。また、最良の価格性能比で$0.003/分のVoxtral Mini Transcribe 2も発表した。
Mistral AIは、音声エージェントおよびライブアプリケーション向けにVoxtral Realtimeを発表した。このモデルはネイティブストリーミングアーキテクチャを採用し、200ミリ秒未満まで遅延を調整可能だ。480msの遅延で、オフラインモデル比1-2%以内の単語誤り率(WER)を達成する。同モデルはApache 2.0ライセンスの下でオープンウェイトとして公開され、開発者の活用を促進する。
併せて、Voxtral Mini Transcribe 2を導入した。これはバッチ転写APIで最高の価格性能比を実現し、FLEURSベンチマークで4%のWERを$0.003/分で記録する。主要機能として話者分離、文脈バイアス、単語レベルのタイムスタンプを備え、13言語に対応する。
開発者はMistral Studioの新オーディオプレイグラウンドでVoxtral Mini Transcribe 2を即座に試用可能だ。音声ファイルをアップロードし、分離を切り替え、文脈バイアスを適用して瞬時に転写を取得できる。
両モデルはAPI経由で即時利用可能:Voxtral Mini Transcribe 2は$0.003/分、Voxtral Realtimeは$0.006/分で、リタイムモデルはオープンウェイト付き。このリリースはリアルタイム音声処理と効率的な転写機能を強化する。
重要ポイント
- Voxtral Realtime: 調整可能遅延サブ200ms
- Voxtral Realtime: 480msでオフラインモデル比1-2% WER
- Voxtral Realtime: Apache 2.0でオープンウェイト公開
- Voxtral Mini Transcribe 2: FLEURSで4% WER、$0.003/分
- 話者分離、文脈バイアス、単語レベルタイムスタンプ、13言語対応
- API料金: Mini Transcribe 2 $0.003/分、Realtime $0.006/分
トピック
Mistral AIVoxtralspeech-to-textvoice agentstranscriptionopen sourceAI models
Original Post
Loading post...
