SGLang Diffusion:動画と画像生成の高速化

私たちは SGLang Diffusion を発表できることを嬉しく思います。これはSGLangのトップクラスの性能を拡散モデルの画像と動画生成分野に導入するものです。

SGLang Diffusionは主流のオープンソース動画・画像生成モデルをサポートしており、Wanシリーズ、Hunyuan、Qwen-Image、Qwen-Image-Edit、Fluxなどが含まれます。同時に多様なAPIインターフェース(OpenAI互換API、CLI、Pythonインターフェース)を通じて高速推論と使いやすさを実現しています。多様なワークロードにおいて、1.2倍から5.9倍の高速化をもたらします。

FastVideoチームとの協力により、私たちは拡散モデルの完全なエコシステムを構築し、後処理から本番環境へのデプロイまでをカバーしています。コードはGitHubでオープンソース化されています。

H100 GPUでのSGLang Diffusionの性能ベンチマーク

H200 GPUでのSGLang Diffusionの性能ベンチマーク

なぜDiffusionをSGLangに導入するのか?

拡散モデルが画像と動画生成の中核技術となるにつれ、コミュニティからSGLangの高性能でシームレスな体験をこれらのモダリティに拡張してほしいという強い要望がありました。私たちはこの需要に応えるためにSGLang Diffusionを開発し、言語タスクと拡散タスクの両方をサポートする統一された高性能エンジンを提供します。

この統一アプローチは重要です。なぜなら、将来の生成技術はアーキテクチャを融合させるからです。ByteDanceのBagel、MetaのTransfusion、NVIDIAのFast-dLLM v2などの先駆的なモデルがすでに存在し、これらは自己回帰(AR)と拡散手法を組み合わせています。SGLang Diffusionは将来を見据えた高性能ソリューションとして設計されています。

アーキテクチャ

SGLang DiffusionはSGLangの成熟したサービスアーキテクチャに基づいており、強力なスケジューラーと最適化されたsgl-kernelを継承し、性能と柔軟性を保証します。

中核となるのはComposedPipelineBaseで、これは複数のモジュール化されたPipelineStageを協調させる柔軟な抽象化です。例えば、DenoisingStageのデノイジングループやDecodingStageのVAEデコードなどがあり、開発者がカスタムパイプラインを構築しやすくなっています。

トップクラスの速度を実現するため、高度な並列技術を統合しています:コアTransformerはUnified Sequence Parallelism(USP、Ulysses-SPとRing-Attentionを含む)をサポートし、その他のコンポーネントはCFG-parallelismとtensor parallelism(TP)をサポートしています。

システムは強化されたFastVideoブランチに基づいており、そのチームと緊密に協力しています:SGLang Diffusionは推論高速化に専念し、FastVideoはモデル蒸留などの学習サポートを提供します。

モデルサポート

人気のオープンソース動画・画像生成モデルをサポート:

  • 動画モデル:Wanシリーズ、FastWan、Hunyuan
  • 画像モデル:Qwen-Image、Qwen-Image-Edit、Flux

完全なサポートリストはこちらをご覧ください。

使用方法

CLI、PythonエンジンAPI、OpenAI互換APIを提供し、統合を容易にします。

インストール

# pipまたはuvを使用
uv pip install 'sglang[diffusion]' --prerelease=allow

# ソースコードから
 git clone https://github.com/sgl-project/sglang.git
 cd sglang
 uv pip install -e "python[diffusion]" --prerelease=allow

CLI

サーバーを起動してリクエストを送信:

sglang serve --model-path black-forest-labs/FLUX.1-dev --port 3000

curl http://127.0.0.1:3000/v1/images/generations \
  -o >(jq -r '.data[0].b64_json' | base64 --decode > example.png) \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
    "model": "black-forest-labs/FLUX.1-dev",
    "prompt": "A cute baby sea otter",
    "n": 1,
    "size": "1024x1024",
    "response_format": "b64_json"
  }'

または直接画像を生成:

sglang generate --model-path black-forest-labs/FLUX.1-dev \
  --prompt "A Logo With Bold Large Text: SGL Diffusion" \
  --save-output

詳細はインストールガイドCLIガイドをご覧ください。

デモ

テキストから動画:Wan-AI/Wan2.1

sglang generate --model-path Wan-AI/Wan2.1-T2V-1.3B-Diffusers \
    --prompt "A curious raccoon" \
    --save-output

動画をダウンロード

画像から動画:Wan-AI/Wan2.1-I2V

sglang generate --model-path=Wan-AI/Wan2.1-I2V-14B-480P-Diffusers \
    --prompt="Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard..." \
    --image-path="https://github.com/Wan-Video/Wan2.2/blob/990af50de458c19590c245151197326e208d7191/examples/i2v_input.JPG?raw=true" \
    --num-gpus 2 --enable-cfg-parallel --save-output

動画をダウンロード

テキストから画像:FLUX

sglang generate --model-path black-forest-labs/FLUX.1-dev \
    --prompt "A Logo With Bold Large Text: SGL Diffusion" \
    --save-output
テキストから画像:FLUX

テキストから画像:Qwen-Image

sglang generate --model-path=Qwen/Qwen-Image \
    --prompt='A curious raccoon' \
    --width=720 --height=720 --save-output
テキストから画像:Qwen-Image

画像から画像:Qwen-Image-Edit

sglang generate --model-path=Qwen/Qwen-Image-Edit \
    --prompt="Convert 2D style to 3D style" --image-path="https://github.com/lm-sys/lm-sys.github.io/releases/download/test/TI2I_Qwen_Image_Edit_Input.jpg" \
    --width=1536 --height=1024 --save-output
入力画像
入力
出力画像
出力

性能ベンチマーク

上部のグラフが示すように、SGLang DiffusionはHugging Face Diffusersなどの人気ベースラインと比較して、画像と動画生成でトップクラスの性能を実現しています。単一GPUと比較して、CFG-ParallelやUSPなどの並列設定により大幅な高速化がもたらされます。

ロードマップと拡散エコシステム

私たちはFastVideoチームと協力して、包括的な拡散エコシステムを構築し、モデル学習から高性能推論までのエンドツーエンドソリューションを提供しています。