SGLang-OmniがMOSS-TTS Local Transformer v1.5をデプロイ：ネイティブ48kHzストリーミング音声サービス

2026年6月29日 4 約4分 LMSYS

LMSYS TTS模型语音合成 SGLang-Omni 开源部署多语言TTS

SGLang-OmniがMOSS-TTS Local Transformer v1.5をデプロイ：ネイティブ48kHzストリーミング音声サービス

本日、MOSI・OpenMOSSチームとSGLang-Omniチームは共同で、MOSS-TTS-Local-Transformer-v1.5がSGLang-Omni上でエンドツーエンドサービスを実現したことを発表しました。本モデルはオープンソースのTTSシステムであり、48kHzステレオ、ゼロショット音声クローン、長文テキスト合成、多言語生成、音声長制御、およびネイティブストリーミング出力をサポートしています。

MOSS-TTS-Local-Transformer-v1.5 モデル概要

本モデルはAudio Tokenizer + LLM自己回帰方式を採用し、Global TransformerとLocal Transformerの二層生成パスを備えています。直接TTS、続き書き、明示的なポーズマーカー（例：[pause 3.2s]）をサポートし、最大10分間の音声生成が可能です。31の主要言語をカバーし、学習データ量は約400万時間です。

MOSS-TTS Local Transformer v1.5 model architecture

音声境界にはMOSS-Audio-Tokenizer-v2を使用しており、エンコーダ・デコーダのパラメータ数は約2B、12.5Hzで動作し、0.125〜4kbpsの可変ビットレートをサポートし、48kHzステレオ音声を再構築できます。生成コアはQwen3-4Bをベースとし、バックボーンがフレームを逐次進行させ、各フレームについて単層Local Transformerが停止・継続の判定を行い、12個のRVQコードブックを順次サンプリングします。

公開評価指標

Seed-TTS-Eval：WER 5.10%、SIM 69.23%
CV3-Eval：WER 7.48%、SIM 61.59%
MiniMax Multilingual：WER 6.37%、SIM 75.31%

なぜ多段階サービスランタイムが必要か

1回のリクエストには、参照音声のエンコード、Qwen3自己回帰生成、ステートフルボコーダーデコードという3つの異種ステージが含まれます。標準的なLLMエンジンでは各ステージのバッチ処理とメモリ特性を両立させることが困難なため、SGLang-Omniはpreprocessing → tts_engine → vocoderという三段階パイプラインを採用しています。

SGLang-Omni デプロイと最適化

インストールと起動コマンドは以下の通りです：

docker pull lmsysorg/sglang-omni:dev
sgl-omni serve --model-path OpenMOSS-Team/MOSS-TTS-Local-Transformer-v1.5 --port 8000

主要な最適化には、参照音声のLRUキャッシュ、フレームレベルのCUDA Graph、ステートフルボコーダーセッション、およびクロスステージの明示的メモリバジェットが含まれます。

SeedTTS英語評価（2×H100、並列数16）において、キャッシュ容量を256から1024に増加させた結果、スループットが32.0%向上し、平均レイテンシが24.3%低下しました。

SGLang-OmniがMOSS-TTS Local Transformer v1.5をデプロイ：ネイティブ48kHzストリーミング音声サービス

MOSS-TTS-Local-Transformer-v1.5 モデル概要

公開評価指標

なぜ多段階サービスランタイムが必要か

SGLang-Omni デプロイと最適化

関連記事