SGLang-OmniがMOSS-TTS Local Transformer v1.5をデプロイ:ネイティブ48kHzストリーミング音声サービス

SGLang-OmniがMOSS-TTS Local Transformer v1.5をデプロイ:ネイティブ48kHzストリーミング音声サービス

本日、MOSI・OpenMOSSチームとSGLang-Omniチームは共同で、MOSS-TTS-Local-Transformer-v1.5がSGLang-Omni上でエンドツーエンドサービスを実現したことを発表しました。本モデルはオープンソースのTTSシステムであり、48kHzステレオ、ゼロショット音声クローン、長文テキスト合成、多言語生成、音声長制御、およびネイティブストリーミング出力をサポートしています。

MOSS-TTS-Local-Transformer-v1.5 モデル概要

本モデルはAudio Tokenizer + LLM自己回帰方式を採用し、Global TransformerとLocal Transformerの二層生成パスを備えています。直接TTS、続き書き、明示的なポーズマーカー(例:[pause 3.2s])をサポートし、最大10分間の音声生成が可能です。31の主要言語をカバーし、学習データ量は約400万時間です。

MOSS-TTS Local Transformer v1.5 model architecture

音声境界にはMOSS-Audio-Tokenizer-v2を使用しており、エンコーダ・デコーダのパラメータ数は約2B、12.5Hzで動作し、0.125〜4kbpsの可変ビットレートをサポートし、48kHzステレオ音声を再構築できます。生成コアはQwen3-4Bをベースとし、バックボーンがフレームを逐次進行させ、各フレームについて単層Local Transformerが停止・継続の判定を行い、12個のRVQコードブックを順次サンプリングします。

公開評価指標

  • Seed-TTS-Eval:WER 5.10%、SIM 69.23%
  • CV3-Eval:WER 7.48%、SIM 61.59%
  • MiniMax Multilingual:WER 6.37%、SIM 75.31%

なぜ多段階サービスランタイムが必要か

1回のリクエストには、参照音声のエンコード、Qwen3自己回帰生成、ステートフルボコーダーデコードという3つの異種ステージが含まれます。標準的なLLMエンジンでは各ステージのバッチ処理とメモリ特性を両立させることが困難なため、SGLang-Omniはpreprocessing → tts_engine → vocoderという三段階パイプラインを採用しています。

SGLang-Omni デプロイと最適化

インストールと起動コマンドは以下の通りです:

docker pull lmsysorg/sglang-omni:dev sgl-omni serve --model-path OpenMOSS-Team/MOSS-TTS-Local-Transformer-v1.5 --port 8000

主要な最適化には、参照音声のLRUキャッシュ、フレームレベルのCUDA Graph、ステートフルボコーダーセッション、およびクロスステージの明示的メモリバジェットが含まれます。

Reference audio cache:CUDA Graph execution

SeedTTS英語評価(2×H100、並列数16)において、キャッシュ容量を256から1024に増加させた結果、スループットが32.0%向上し、平均レイテンシが24.3%低下しました。