本日、MOSI・OpenMOSSチームとSGLang-Omniチームは共同で、MOSS-TTS-Local-Transformer-v1.5がSGLang-Omni上でエンドツーエンドサービスを実現したことを発表しました。本モデルはオープンソースのTTSシステムであり、48kHzステレオ、ゼロショット音声クローン、長文テキスト合成、多言語生成、音声長制御、およびネイティブストリーミング出力をサポートしています。
MOSS-TTS-Local-Transformer-v1.5 モデル概要
本モデルはAudio Tokenizer + LLM自己回帰方式を採用し、Global TransformerとLocal Transformerの二層生成パスを備えています。直接TTS、続き書き、明示的なポーズマーカー(例:[pause 3.2s])をサポートし、最大10分間の音声生成が可能です。31の主要言語をカバーし、学習データ量は約400万時間です。
音声境界にはMOSS-Audio-Tokenizer-v2を使用しており、エンコーダ・デコーダのパラメータ数は約2B、12.5Hzで動作し、0.125〜4kbpsの可変ビットレートをサポートし、48kHzステレオ音声を再構築できます。生成コアはQwen3-4Bをベースとし、バックボーンがフレームを逐次進行させ、各フレームについて単層Local Transformerが停止・継続の判定を行い、12個のRVQコードブックを順次サンプリングします。
公開評価指標
- Seed-TTS-Eval:WER 5.10%、SIM 69.23%
- CV3-Eval:WER 7.48%、SIM 61.59%
- MiniMax Multilingual:WER 6.37%、SIM 75.31%
なぜ多段階サービスランタイムが必要か
1回のリクエストには、参照音声のエンコード、Qwen3自己回帰生成、ステートフルボコーダーデコードという3つの異種ステージが含まれます。標準的なLLMエンジンでは各ステージのバッチ処理とメモリ特性を両立させることが困難なため、SGLang-Omniはpreprocessing → tts_engine → vocoderという三段階パイプラインを採用しています。
SGLang-Omni デプロイと最適化
インストールと起動コマンドは以下の通りです:
docker pull lmsysorg/sglang-omni:dev
sgl-omni serve --model-path OpenMOSS-Team/MOSS-TTS-Local-Transformer-v1.5 --port 8000主要な最適化には、参照音声のLRUキャッシュ、フレームレベルのCUDA Graph、ステートフルボコーダーセッション、およびクロスステージの明示的メモリバジェットが含まれます。

SeedTTS英語評価(2×H100、並列数16)において、キャッシュ容量を256から1024に増加させた結果、スループットが32.0%向上し、平均レイテンシが24.3%低下しました。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接