SGLang-Diffusion 2ヶ月間の進展

2025年11月初旬の公開以来、SGLang-Diffusionはコミュニティで広く注目され、活用されています。オープンソース開発者の皆様からの幅広いフィードバックと貢献に心から感謝いたします。

過去2ヶ月間、私たちはSGLang-Diffusionの細やかな最適化を行い、現在(dockerイメージタグ:lmsysorg/sglang:dev-pr-17247)の速度は初期バージョンと比較して最大2.5倍高速になりました。

概要

新モデルサポート

  • Flux.2、Qwen-Image-Edit-2511、Z-Image-Turboなど、多様な新モデルをサポートしています。
  • diffusersバックエンドと互換性があり、さらなる改善を計画しています(Issue #16642参照)。

LoRAサポート

私たちはサポートモデルのほぼすべてのLoRAフォーマットに対応しています。以下はテストおよび検証済みのLoRAの一部です:

ベースモデルサポートされるLoRA
Wan2.2lightx2v/Wan2.2-Distill-Loras
Cseti/wan2.2-14B-Arcane_Jinx-lora-v1
Wan2.1lightx2v/Wan2.1-Distill-Loras
Z-Image-Turbotarn59/pixel_art_style_lora_z_image_turbo
wcde/Z-Image-Turbo-DeJPEG-Lora
Qwen-Imagelightx2v/Qwen-Image-Lightning
flymy-ai/qwen-image-realism-lora
prithivMLmods/Qwen-Image-HeadshotX
starsfriday/Qwen-Image-EVA-LoRA
Qwen-Image-Editostris/qwen_image_edit_inpainting
lightx2v/Qwen-Image-Edit-2511-Lightning
Fluxdvyio/flux-lora-simple-illustration
XLabs-AI/flux-furry-lora
XLabs-AI/flux-RealismLora

LoRAの設定、マージ、管理を実現するための包括的なHTTP APIサポートを提供しています。

並列性

SPおよびTPモード、そして混合並列(Ulysses Parallel、Ring Parallel、Tensor Parallelの組み合わせ)をサポートしています。

ハードウェアサポート

AMD、4090、5090、MUSAハードウェアに対応しています。

SGLang-DiffusionとComfyUIの統合

私たちは柔軟なComfyUIカスタムノードを実装し、SGLang-Diffusionの高性能推論エンジンを統合しました。ユーザーはComfyUIのローダーをSGL-Diffusion UNET Loaderに置き換えることでパフォーマンスを向上できます。

ComfyUIにおけるSGLang-Diffusionプラグイン

パフォーマンスベンチマーク

SGLang-Diffusionの複数のパフォーマンステストを実施し、NVIDIA GPU上で最先端の速度を実現し、他のソリューションと比較して最大5倍高速になりました。

AMD GPU上でもパフォーマンス評価を実施しました:

主要な改善点

1. レイヤーワイズオフロード

LayerwiseOffloadManagerOffloadableDiTMixinを導入し、計算時に次のレイヤーの重みを事前取得し、VRAMの使用を最適化しました。

標準ロードとレイヤーワイズオフロードの比較

2. カーネル改善

  • 最新のFlashAttentionカーネルを同期し、パフォーマンスの遅延を解消しました。
  • 最適化されたQKV処理により、中間テンソルの生成を削減しました。
  • FlashInferで実装されたRoPE最適化により、オーバーヘッドを削減しました。
  • 重みの融合によりGEMMカウントを削減しました。
  • タイムステップ用のCUDAカーネル実装。

3. Cache-DiT統合

Cache-DiT🤗をSGLang-Diffusionにシームレスに統合し、複数の並列モードに対応しています。環境変数の簡単な設定で生成速度を向上させることができます。

4. その他の改善

  • メモリモニタリング:オフラインおよびオンラインワークフローでピーク使用統計を提供。
  • 完全なパフォーマンスプロファイリングツールセットを提供。
  • Diffusion Cookbookに最適化ガイドを含む。

今後の計画

  • スパースアテンションバックエンド
  • 量子化サポート
  • コンシューマグレードGPU最適化
  • sglang-omniとの共同設計