SGLang-Diffusion 2ヶ月間の進展

2026年2月4日 741 約5分 LMSYS

LMSYS AI技术深度学习性能优化开源

2025年11月初旬の公開以来、SGLang-Diffusionはコミュニティで広く注目され、活用されています。オープンソース開発者の皆様からの幅広いフィードバックと貢献に心から感謝いたします。

過去2ヶ月間、私たちはSGLang-Diffusionの細やかな最適化を行い、現在（dockerイメージタグ：lmsysorg/sglang:dev-pr-17247）の速度は初期バージョンと比較して最大2.5倍高速になりました。

概要

私たちはサポートモデルのほぼすべてのLoRAフォーマットに対応しています。以下はテストおよび検証済みのLoRAの一部です：

ベースモデル	サポートされるLoRA
Wan2.2	`lightx2v/Wan2.2-Distill-Loras` `Cseti/wan2.2-14B-Arcane_Jinx-lora-v1`
Wan2.1	`lightx2v/Wan2.1-Distill-Loras`
Z-Image-Turbo	`tarn59/pixel_art_style_lora_z_image_turbo` `wcde/Z-Image-Turbo-DeJPEG-Lora`
Qwen-Image	`lightx2v/Qwen-Image-Lightning` `flymy-ai/qwen-image-realism-lora` `prithivMLmods/Qwen-Image-HeadshotX` `starsfriday/Qwen-Image-EVA-LoRA`
Qwen-Image-Edit	`ostris/qwen_image_edit_inpainting` `lightx2v/Qwen-Image-Edit-2511-Lightning`
Flux	`dvyio/flux-lora-simple-illustration` `XLabs-AI/flux-furry-lora` `XLabs-AI/flux-RealismLora`

LoRAの設定、マージ、管理を実現するための包括的なHTTP APIサポートを提供しています。

SPおよびTPモード、そして混合並列（Ulysses Parallel、Ring Parallel、Tensor Parallelの組み合わせ）をサポートしています。

AMD、4090、5090、MUSAハードウェアに対応しています。

私たちは柔軟なComfyUIカスタムノードを実装し、SGLang-Diffusionの高性能推論エンジンを統合しました。ユーザーはComfyUIのローダーをSGL-Diffusion UNET Loaderに置き換えることでパフォーマンスを向上できます。

ComfyUIにおけるSGLang-Diffusionプラグイン

SGLang-Diffusionの複数のパフォーマンステストを実施し、NVIDIA GPU上で最先端の速度を実現し、他のソリューションと比較して最大5倍高速になりました。

AMD GPU上でもパフォーマンス評価を実施しました：

LayerwiseOffloadManagerとOffloadableDiTMixinを導入し、計算時に次のレイヤーの重みを事前取得し、VRAMの使用を最適化しました。

標準ロードとレイヤーワイズオフロードの比較

Cache-DiT🤗をSGLang-Diffusionにシームレスに統合し、複数の並列モードに対応しています。環境変数の簡単な設定で生成速度を向上させることができます。