SGLangとNVIDIAが協力してInferenceMAXベンチマークとGB200性能を加速

2026年2月4日 757 約9分 LMSYS

LMSYS SGLang NVIDIA Blackwell InferenceMAX GB200 MoE优化

SGLangとNVIDIAの深い協力

SGLangとNVIDIAチームは長期にわたって協力し、推論最適化とシステムレベルの改善を継続的に発表し、SGLangフレームワークの卓越した性能を確保しています。最近、協力の焦点はNVIDIAの最新データセンターGPUであるNVIDIA Blackwellアーキテクチャに移りました。FP8 attention、NVFP4 MoE、PD-Disaggregated Expert ParallelismアーキテクチャなどのBlackwellの主要機能を活用することで、SGLangは高スループット下で画期的な性能を達成しました。NVIDIA GB200 NVL72システム上で、SGLangはDeepSeek R1モデルに対して驚異的なGPU当たりプリフィル26k入力トークン/秒、デコード13k出力トークン/秒を実現し、大規模展開におけるコストと電力効率の新たな高みを示しています。

この共同成果は、新たに発表されたSemiAnalysis InferenceMAX v1ベンチマークにおけるSGLangのパフォーマンスにさらに反映されています。InferenceMAXは、異なる入力/出力構成に対して推論テストを実行し、結果を毎日更新する継続的なベンチマークフレームワークです。

Blackwell GPU（GB200/B200）上でDeepSeek R1モデルを実行する際、SGLangは前世代のHopper GPU（H100/H200）と比較して最大4倍の性能向上を実現し、この優位性はパレート最適境界（レイテンシとスループットの重要なトレードオフを評価）全体にわたって示されています。

SemiAnalysis InferenceMAXベンチマーク

LLM推論性能は2つの主要な柱によって駆動されます：ハードウェアとソフトウェア。ハードウェアの革新は段階的な改善をもたらし、ソフトウェアは日々進化して継続的な性能向上を提供します。SemiAnalysis InferenceMAX™ベンチマークは、この動的な状況を捉えることを目的とし、数百種類のチップで毎晩ベンチマークスイートを実行し、人気のオープンソース推論フレームワークとモデルの実際の性能をリアルタイムで追跡します。一般の方はライブダッシュボードにアクセスできます。

InferenceMAX™の核心的な目標は、異なるGPU、推論エンジン、ワークロードの全範囲をカバーすることです。サーバー構成が実際の展開に近いことを確保するため、ベンチマーク主催者はハードウェアベンダーに対して、そのベストプラクティスに準拠した構成の提出を要求しています。

SGLangは、NVIDIAおよびAMDハードウェア上でDeepSeekモデルを実行するためのデフォルトの推論エンジンとして選ばれました。これは、これらの最先端モデルに対する高度に専門化された最適化の証明です。

下図は、1k入力トークンと8k出力トークン構成の結果を示し、Blackwell上の性能を強調しています。

図1：異なるハードウェアプラットフォーム上のSGLangの性能。（出典：https://inferencemax.ai/）

大規模MoEモデル向けのSGLang最適化

これらの性能向上は、大規模なMixture-of-Experts (MoE)モデルに対する深いシステムレベルの最適化に由来しています。

Prefill-Decode分離と大規模エキスパート並列化

LLM推論は2つの段階に分かれます：計算集約的なPrefill（入力プロンプトの処理）とメモリ集約的なDecode（出力トークンの生成）。統一エンジンで両方を処理すると、プリフィルバッチがデコードフローを中断するなどの非効率性が生じます。

SGLangはPrefill-Decode (PD) Disaggregationによってこの問題を解決し、2つの段階を独立したエンジンに分離して、ターゲットを絞ったスケジューリングと最適化を実現します。このアーキテクチャは、特にDeepEPなどの通信ライブラリを使用する際に、大規模エキスパート並列化（EP）を効率的に実装するために重要です。DeepEPはプリフィル（高スループット）とデコード（低レイテンシ）に異なる分散モードを採用し、統一エンジンでは互換性がありません。分離後、SGLangは各段階に最適なDeepEPモードを選択でき、全体的な効率を向上させます。

Blackwell専用カーネル最適化

NVIDIAとの協力により、Blackwellの新機能を最大限活用する最適化カーネルを開発・統合しました：

FP8 Attention：KVキャッシュはFP8精度を使用し、デコード時のメモリアクセス圧力を半減し、より高速なTensor Core命令を有効にして、アテンションカーネルの速度を向上させ、より大きなバッチとより長いシーケンスをサポートします。
NVFP4 GEMM：MoEエキスパートと他のGEMMは新しいNVFP4精度を使用し、メモリ帯域幅を削減し、強力なFP4 Tensor Coreを活用し、トークン分散通信トラフィックを半減させ、より大きなKVキャッシュを収容するために重みメモリ領域を解放します。
計算-通信オーバーラップ：Blackwellシステムの通信帯域幅は大幅に向上し、より細かいオーバーラップをサポートし、通信レイテンシを効率的に隠蔽します。
最適化カーネル：NVIDIA Blackwell DeepGEMM、FlashInferのNVFP4 GEMMとFP8 attentionカーネル、Flash Attention CuTe、CUTLASS MLAを含む一連の新しいカーネルを統合し、すべてTMAやcluster launch controlなどの新機能を活用するために書き直されています。

詳細については、以下の技術ブログをご覧ください：

図2：Prefill-Decode分離とエキスパート並列化を使用したSGLangの性能。（出典：https://lmsys.org/blog/2025-09-25-gb200-part-2/）

今後の協力

今後、NVIDIAとのランタイムおよびカーネルレベルでの協力を強化し、コンパクトなDGX SparkからGB200やGB300などのフルラックスーパーコンピューターまで、最新のNVIDIA GPU上でDeepSeek v3.2、GPT-OSS、QWenモデルシリーズの性能を継続的に最適化していきます。

また、SemiAnalysisチームとより緊密に協力して、InferenceMAXベンチマークをより体系的で、再現可能で、信頼できるものにし、フルラックソリューションの検証を支援します。

謝辞

このプロジェクトを支援してくださったコミュニティのすべての方々に感謝します。

NVIDIAチーム：Trevor Morris, Kaixi Hou, Elfie Guo, Nicolas Castet, Faraz Khoubsirat, Ishan Dhanan, Shu Wang, Pavani Majety, Zihao Ye, Yingyi Huang, Alex Zhurkevich, Kushan Ahmadian, Pen Li, Juan Yu, Kedar Potar, Grace Ho, Lingjie Wu, Yiheng Zhang, Kyle Liang 他

SGLangチーム：Jingyi Chen, Baizhou Zhang, Jiexin Liang, Qiaolin Yu, Yineng Zhang, Ke Bao, Liangsheng Yin, Jianan Ji, Ying Sheng

SemiAnalysisチーム：Dylan Patel, Kimbo Chen, Cam 他