2025年11月初旬の公開以来、SGLang-Diffusionはコミュニティで広く注目され、活用されています。オープンソース開発者の皆様からの幅広いフィードバックと貢献に心から感謝いたします。
過去2ヶ月間、私たちはSGLang-Diffusionの細やかな最適化を行い、現在(dockerイメージタグ:lmsysorg/sglang:dev-pr-17247)の速度は初期バージョンと比較して最大2.5倍高速になりました。
概要
新モデルサポート
- Flux.2、Qwen-Image-Edit-2511、Z-Image-Turboなど、多様な新モデルをサポートしています。
- diffusersバックエンドと互換性があり、さらなる改善を計画しています(Issue #16642参照)。
LoRAサポート
私たちはサポートモデルのほぼすべてのLoRAフォーマットに対応しています。以下はテストおよび検証済みのLoRAの一部です:
| ベースモデル | サポートされるLoRA |
|---|---|
| Wan2.2 | lightx2v/Wan2.2-Distill-LorasCseti/wan2.2-14B-Arcane_Jinx-lora-v1 |
| Wan2.1 | lightx2v/Wan2.1-Distill-Loras |
| Z-Image-Turbo | tarn59/pixel_art_style_lora_z_image_turbowcde/Z-Image-Turbo-DeJPEG-Lora |
| Qwen-Image | lightx2v/Qwen-Image-Lightningflymy-ai/qwen-image-realism-loraprithivMLmods/Qwen-Image-HeadshotXstarsfriday/Qwen-Image-EVA-LoRA |
| Qwen-Image-Edit | ostris/qwen_image_edit_inpaintinglightx2v/Qwen-Image-Edit-2511-Lightning |
| Flux | dvyio/flux-lora-simple-illustrationXLabs-AI/flux-furry-loraXLabs-AI/flux-RealismLora |
LoRAの設定、マージ、管理を実現するための包括的なHTTP APIサポートを提供しています。
並列性
SPおよびTPモード、そして混合並列(Ulysses Parallel、Ring Parallel、Tensor Parallelの組み合わせ)をサポートしています。
ハードウェアサポート
AMD、4090、5090、MUSAハードウェアに対応しています。
SGLang-DiffusionとComfyUIの統合
私たちは柔軟なComfyUIカスタムノードを実装し、SGLang-Diffusionの高性能推論エンジンを統合しました。ユーザーはComfyUIのローダーをSGL-Diffusion UNET Loaderに置き換えることでパフォーマンスを向上できます。

ComfyUIにおけるSGLang-Diffusionプラグイン
パフォーマンスベンチマーク
SGLang-Diffusionの複数のパフォーマンステストを実施し、NVIDIA GPU上で最先端の速度を実現し、他のソリューションと比較して最大5倍高速になりました。
AMD GPU上でもパフォーマンス評価を実施しました:
主要な改善点
1. レイヤーワイズオフロード
LayerwiseOffloadManagerとOffloadableDiTMixinを導入し、計算時に次のレイヤーの重みを事前取得し、VRAMの使用を最適化しました。

標準ロードとレイヤーワイズオフロードの比較
2. カーネル改善
- 最新のFlashAttentionカーネルを同期し、パフォーマンスの遅延を解消しました。
- 最適化されたQKV処理により、中間テンソルの生成を削減しました。
- FlashInferで実装されたRoPE最適化により、オーバーヘッドを削減しました。
- 重みの融合によりGEMMカウントを削減しました。
- タイムステップ用のCUDAカーネル実装。
3. Cache-DiT統合
Cache-DiT🤗をSGLang-Diffusionにシームレスに統合し、複数の並列モードに対応しています。環境変数の簡単な設定で生成速度を向上させることができます。
4. その他の改善
- メモリモニタリング:オフラインおよびオンラインワークフローでピーク使用統計を提供。
- 完全なパフォーマンスプロファイリングツールセットを提供。
- Diffusion Cookbookに最適化ガイドを含む。
今後の計画
- スパースアテンションバックエンド
- 量子化サポート
- コンシューマグレードGPU最適化
sglang-omniとの共同設計
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接