Higgs Audio v3 TTSがSGLang-Omniに対応:リアルタイム制御可能な音声エージェントの新たなブレークスルー

Higgs Audio v3 TTSがSGLang-Omniに対応:リアルタイム制御可能な音声エージェントの新たなブレークスルー

Boson AIとSGLang-Omniチームはこのほど、Higgs Audio v3 TTSモデルがSGLang-Omniフレームワーク上でエンドツーエンドのデプロイを実現したと発表した。このモデルは対話型音声エージェント向けに設計されており、低レイテンシで自然かつ表現豊かな音声を生成できる。100言語をサポートしながらWER/CERを一桁台に維持し、開発者がテキストストリームの入力を通じて感情・スタイル・韻律・効果音を直接制御できる。

実際の対話を想定して設計されたTTSモデル

Higgs Audio v3 TTSは約4Bパラメータの自己回帰デコーダーを採用し、Qwen3-4Bバックボーンネットワークを基盤として構築されている。ストリーミングテキスト入力をサポートしており、文章が完結する前に合成を開始し、後続のテキストが到着しても話者の識別情報・感情・リズムの一貫性を維持できる。音声はHiggs Tokenizerによって8つの離散コードブックにエンコードされ、25 fpsでインターリーブ処理され、最終的に24 kHzの波形として出力される。

多言語での優れたパフォーマンス

Boson AI社内のHiggs-Multilingualテストセット(111言語・方言をカバー)において、モデルは100言語でWER/CERが一桁台を達成した。公開多言語音声クローニングベンチマークでも優れた結果を示しており、ゼロショット音声クローニングでは短い参照音声のみで言語をまたいで使用できる。

BenchmarkLanguagesWER/CER ↓
Seed-TTS21.11
CV394.41
MiniMax-Multilingual232.74
Higgs-Multilingual1113.61

テキストストリームによる細かな制御

開発者は入力テキストに制御タグを直接挿入することで、感情の切り替え・スタイル調整・速度とピッチの制御・効果音の挿入を実現できる。例:

<|emotion:amusement|><|prosody:expressive_high|>Wait, wait... <|sfx:laughter|>

タグは感情・スタイル・韻律・効果音の20種類以上のカテゴリをカバーしており、自由に組み合わせて使用できる。

SGLang-Omniのマルチステージサービングアーキテクチャ

Higgsの生成プロセスは異なる計算パターンを持つ複数のステージで構成されており、SGLang-OmniはステージABSTRACTION・ZMQコントロールプレーン・CUDA IPCなどの技術によって効率的なスケジューリングを実現している。ARステージはOmniSchedulerを使用して連続バッチ処理とKVキャッシュ管理をサポートし、非ARステージはSimpleSchedulerまたはStreamingSimpleSchedulerを採用している。フレームワークはCUDA-Graphフレンドリーなランナーとストリーミングボコーダースケジューラーも提供しており、新しいモデルが低レベルの最適化を繰り返し実装する必要がない。