私たちは SGLang Diffusion を発表できることを嬉しく思います。これはSGLangのトップクラスの性能を拡散モデルの画像と動画生成分野に導入するものです。
SGLang Diffusionは主流のオープンソース動画・画像生成モデルをサポートしており、Wanシリーズ、Hunyuan、Qwen-Image、Qwen-Image-Edit、Fluxなどが含まれます。同時に多様なAPIインターフェース(OpenAI互換API、CLI、Pythonインターフェース)を通じて高速推論と使いやすさを実現しています。多様なワークロードにおいて、1.2倍から5.9倍の高速化をもたらします。
FastVideoチームとの協力により、私たちは拡散モデルの完全なエコシステムを構築し、後処理から本番環境へのデプロイまでをカバーしています。コードはGitHubでオープンソース化されています。
H100 GPUでのSGLang Diffusionの性能ベンチマーク
H200 GPUでのSGLang Diffusionの性能ベンチマーク
なぜDiffusionをSGLangに導入するのか?
拡散モデルが画像と動画生成の中核技術となるにつれ、コミュニティからSGLangの高性能でシームレスな体験をこれらのモダリティに拡張してほしいという強い要望がありました。私たちはこの需要に応えるためにSGLang Diffusionを開発し、言語タスクと拡散タスクの両方をサポートする統一された高性能エンジンを提供します。
この統一アプローチは重要です。なぜなら、将来の生成技術はアーキテクチャを融合させるからです。ByteDanceのBagel、MetaのTransfusion、NVIDIAのFast-dLLM v2などの先駆的なモデルがすでに存在し、これらは自己回帰(AR)と拡散手法を組み合わせています。SGLang Diffusionは将来を見据えた高性能ソリューションとして設計されています。
アーキテクチャ
SGLang DiffusionはSGLangの成熟したサービスアーキテクチャに基づいており、強力なスケジューラーと最適化されたsgl-kernelを継承し、性能と柔軟性を保証します。
中核となるのはComposedPipelineBaseで、これは複数のモジュール化されたPipelineStageを協調させる柔軟な抽象化です。例えば、DenoisingStageのデノイジングループやDecodingStageのVAEデコードなどがあり、開発者がカスタムパイプラインを構築しやすくなっています。
トップクラスの速度を実現するため、高度な並列技術を統合しています:コアTransformerはUnified Sequence Parallelism(USP、Ulysses-SPとRing-Attentionを含む)をサポートし、その他のコンポーネントはCFG-parallelismとtensor parallelism(TP)をサポートしています。
システムは強化されたFastVideoブランチに基づいており、そのチームと緊密に協力しています:SGLang Diffusionは推論高速化に専念し、FastVideoはモデル蒸留などの学習サポートを提供します。
モデルサポート
人気のオープンソース動画・画像生成モデルをサポート:
- 動画モデル:Wanシリーズ、FastWan、Hunyuan
- 画像モデル:Qwen-Image、Qwen-Image-Edit、Flux
完全なサポートリストはこちらをご覧ください。
使用方法
CLI、PythonエンジンAPI、OpenAI互換APIを提供し、統合を容易にします。
インストール
# pipまたはuvを使用
uv pip install 'sglang[diffusion]' --prerelease=allow
# ソースコードから
git clone https://github.com/sgl-project/sglang.git
cd sglang
uv pip install -e "python[diffusion]" --prerelease=allowCLI
サーバーを起動してリクエストを送信:
sglang serve --model-path black-forest-labs/FLUX.1-dev --port 3000
curl http://127.0.0.1:3000/v1/images/generations \
-o >(jq -r '.data[0].b64_json' | base64 --decode > example.png) \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "black-forest-labs/FLUX.1-dev",
"prompt": "A cute baby sea otter",
"n": 1,
"size": "1024x1024",
"response_format": "b64_json"
}'または直接画像を生成:
sglang generate --model-path black-forest-labs/FLUX.1-dev \
--prompt "A Logo With Bold Large Text: SGL Diffusion" \
--save-outputデモ
テキストから動画:Wan-AI/Wan2.1
sglang generate --model-path Wan-AI/Wan2.1-T2V-1.3B-Diffusers \
--prompt "A curious raccoon" \
--save-output画像から動画:Wan-AI/Wan2.1-I2V
sglang generate --model-path=Wan-AI/Wan2.1-I2V-14B-480P-Diffusers \
--prompt="Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard..." \
--image-path="https://github.com/Wan-Video/Wan2.2/blob/990af50de458c19590c245151197326e208d7191/examples/i2v_input.JPG?raw=true" \
--num-gpus 2 --enable-cfg-parallel --save-outputテキストから画像:FLUX
sglang generate --model-path black-forest-labs/FLUX.1-dev \
--prompt "A Logo With Bold Large Text: SGL Diffusion" \
--save-output
テキストから画像:Qwen-Image
sglang generate --model-path=Qwen/Qwen-Image \
--prompt='A curious raccoon' \
--width=720 --height=720 --save-output
画像から画像:Qwen-Image-Edit
sglang generate --model-path=Qwen/Qwen-Image-Edit \
--prompt="Convert 2D style to 3D style" --image-path="https://github.com/lm-sys/lm-sys.github.io/releases/download/test/TI2I_Qwen_Image_Edit_Input.jpg" \
--width=1536 --height=1024 --save-output

性能ベンチマーク
上部のグラフが示すように、SGLang DiffusionはHugging Face Diffusersなどの人気ベースラインと比較して、画像と動画生成でトップクラスの性能を実現しています。単一GPUと比較して、CFG-ParallelやUSPなどの並列設定により大幅な高速化がもたらされます。
ロードマップと拡散エコシステム
私たちはFastVideoチームと協力して、包括的な拡散エコシステムを構築し、モデル学習から高性能推論までのエンドツーエンドソリューションを提供しています。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接