Mistral AI、最高価格パフォーマンスのVoxtral Mini Transcribe 2をリリース
Mistral AIは、FLEURSで4% WER、$0.003/分の最良の価格パフォーマンスを持つ転写API、Voxtral Mini Transcribe 2をリリースしました。13言語対応で高度な機能付き。Voxtral Realtimeはライブアプリ向けに200ms未満の低遅延を提供し、オープンウェイトで公開されています。
Mistral AIは、転写APIの中で最高の価格パフォーマンスを誇るバッチ転写ソリューション、Voxtral Mini Transcribe 2を発表しました。FLEURSベンチマークで4%の単語誤り率(WER)を達成し、わずか$0.003/分の価格です。このモデルは話者分離、コンテキストバイアス、単語レベルのタイムスタンプを備え、13言語をサポートします。
Voxtral Realtimeは、ボイスエージェントやライブアプリケーション向けに設計されたネイティブストリーミングアーキテクチャを採用し、200ms未満への遅延設定が可能です。480msの遅延で、オフラインモデル比1-2%以内のWERを維持します。このリアルタイムモデルはApache 2.0ライセンスの下でオープンウェイトとして公開されています。
開発者はMistral Studioの新しいオーディオプレイグラウンドでVoxtral Mini Transcribe 2を試せます。オーディオファイルをアップロードし、話者分離をオンにしたり、コンテキストバイアスを適用したりして、即時転写を取得可能です。
両モデルともAPIで即時利用可能:Voxtral Mini Transcribe 2が$0.003/分、Voxtral Realtimeが$0.006/分で、Realtimeのオープンウェイトも併用できます。
大規模言語モデルで知られるMistral AIは、これらの転写技術でマルチモーダル機能をさらに強化しています。
重要ポイント
- FLEURSで4% WER
- Voxtral Mini Transcribe 2: $0.003/分
- 13言語対応
- 話者分離、コンテキストバイアス、単語レベルタイムスタンプ
- Voxtral Realtime: 200ms未満設定可能遅延
- 480msでオフラインモデル比1-2% WER
- Apache 2.0でオープンウェイト
- Voxtral Realtime API: $0.006/分

