@Alibaba_Qwen·announcement·2026年1月24日

アリババのQwen3-TTS、vLLMとストリーミング推論対応へ　声の一貫性・制御機能も強化

アリババのQwenチームは、テキスト読み上げモデルQwen3-TTSの主な機能に関するユーザーからの質問に答え、vLLMプロジェクトとのストリーミング推論対応を発表した。また、声の一貫性維持機能とInstruct形式の制御機能の追加も明らかにした。

アリババのQwenチームは、テキスト読み上げモデルQwen3-TTSに関する更新情報を公開し、ユーザーから寄せられる頻出の質問に対応した。

同チームはvLLMプロジェクトと協力し、ストリーミング推論を実現する。この取り組みにより、リアルタイムでのスムーズな体験が期待される。

声のトーンを一貫させるためには、Voice Design機能で好みの声を選択し、Baseモデルのクローン機能で固定の参照として設定する方法が有効だ。この手法により、生成ごとに安定した出力が得られる。

またBaseモデルは、感情やスタイルを指定するInstruct形式の制御を近日中にサポートする予定だ。この機能は、今後のオープンソース版25Hzモデルに含まれる。

Qwen3-TTSはアリババ・クラウドのQwenシリーズ大規模言語モデルの一部で、高度なテキスト読み上げ合成を含むマルチモーダル機能を強調している。これらの更新は、開発者やユーザーの実務ニーズに応じたものだ。

発表は、Qwen3-TTSの汎用性と使いやすさを高める継続的な開発努力を示している。ストリーミング対応は低遅延インタラクションを、制御機能はクリエイティブな可能性を拡大する見込みだ。

重要ポイント

Qwen3-TTSText-to-SpeechAlibaba QwenvLLMAI InferenceStreaming AudioVoice Cloning

Loading post...