SGLang、NVIDIA GB300 NVL72で25倍の推論性能向上を実現

SGLangチームとNVIDIAは複数世代のGPUにわたって緊密に協力し、大規模Mixture of Expert (MoE)推論モデルの展開において飛躍的な推論性能向上を実現しました。先にSemiAnalysis InferenceMAXv1ベンチマークでBlackwell B200がHopper H200に対して4倍の高速化を達成したのに続き、私たちはこの勢いをBlackwell Ultraへと継続させています。GB300 NVL72上で、SGLangは最新のInferenceXv2ベンチマークにおいてH200比で最大25倍の性能向上を実現しました。さらに、4か月足らずで、GB200 NVL72上でのSGLangのInferenceXv2性能を最大8倍向上させました。これらの性能飛躍は、SGLang開発者とNVIDIAエンジニアリングチームの緊密な協力によるもので、より低レイテンシ、より高いスループット、そして大規模MoE推論モデル展開のトークンあたりコストの大幅削減に直接つながっています。

図1

NVIDIA GB300 NVL72搭載Blackwell Ultra GPU

NVIDIA GB200 NVL72は、72個のBlackwell GPUを単一の高帯域ドメインに接続し、帯域幅130 TB/sを実現する、最も強力なスケールアップ型データセンターGPUプラットフォームとして確立されています。このアーキテクチャは、Wide Expert Parallel実行のための低レイテンシall-to-all通信と、prefillとdecode GPU間の高速KV-cache移行に依存するMoEモデルに特に適しています。

NVIDIA GB300 NVL72は、この基盤の上にBlackwell Ultra GPUを導入し、複数の重要な強化をもたらします:

  • 1.5倍のピークNVFP4スループット:更新されたTensor Coresにより、クロックあたりのFP4スループットがBlackwell比で1.5倍向上し、MoEエキスパートと密層のmath-bound GEMM操作を高速化します。
  • 2倍のアテンションSoftmaxスループット:アップグレードされた特殊関数ユニット(SFU)により、アテンション層の重要コンポーネントであるSoftmax操作のスループットが倍増します。
  • 1.5倍大容量のHBM3e:Blackwell Ultraはより高容量の12-Hi HBM3eスタック(8-Hi比で向上)を統合し、CPU卸载なしでより大きなモデルとバッチサイズをサポートします。

72-GPU NVL72の大規模ドメインと組み合わせることで、これらの機能はMoE GEMMスループットを向上させ、アテンションSoftmaxを高速化し、disaggregated推論設定での大規模decodeバッチをサポートします。

GB300 NVL72上でSGLangが25倍の性能向上

SemiAnalysis InferenceX(旧InferenceMAX)は、数百のアクセラレータ上で人気のオープンソースフレームワークとモデルの実際の推論性能を評価する継続的に実行されるベンチマークスイートで、リアルタイムの結果はinferencemax.aiで確認できます。InferenceMAXv1リリースでは、SGLangがBlackwellでHopper比でDeepSeek R1に対して最大4倍の性能を引き出すことが示されました。

最新のInferenceXv2では、NVIDIAのGB300 NVL72ラックレベルシステムがベンチマーク行列に追加されました。NVIDIAとの継続的な協力により、SGLangはGB300 NVL72上でDeepSeek R1を実行する際、H200比で最大25倍の性能向上を達成しました。この向上は、Blackwell Ultraアーキテクチャの進歩とSGLangの推論スタックにおけるターゲット指向のソフトウェアおよびカーネル最適化の組み合わせによるものです。

図2

なお、25倍向上に使用されたH200ベースラインは、低レイテンシユースケースを反映した50 TPS/userの対話性を採用しています。レイテンシ制約なしでは、H200は同様のスループットを実現できます(以前のブログで述べたとおり)。本ブログでは、合理的なレイテンシシナリオを体現するため、比較ポイントとして50 TPS/userを選択しました。

Blackwell Ultra向けの推論最適化

GB300 NVL72上でBlackwell Ultraの機能を最大限に活用するため、SGLangは低精度データ形式、カーネル設計、disaggregated servingにわたる複数の最適化を導入しました:

  • MoEと密層のNVFP4 GEMMNVFP4精度を採用し、メモリ帯域幅の圧力を軽減し、Blackwell Ultraのより高いFP4 Tensor Coreスループットを活用し、トークン分散通信トラフィックを半減させます。これによりメモリ内の重み占有を縮小し、より大きなKV cacheのためのスペースを解放し、並行性を向上させます。
  • 計算-通信オーバーラップ:従来のTwo-Batch overlapping (TBO)を廃止し、NVL72のより高い相互接続帯域幅に対応した単一バッチオーバーラップ戦略を採用します。実際には、これによりproducer-consumerモードで通信とdown-GEMM計算を並行実行し、追加のCUDAストリーム上で共有エキスパート計算をオーバーラップさせ、アイドル時間を最小化します。
  • disaggregated推論用NVIDIA Dynamo:prefill-decode分離のため、オープンソース分散推論servingエンジンであるNVIDIA Dynamoを統合しました。そのモジュラー設計により、深く結合されたKV-awareルーターとSGLangのHiCache radixツリーが可能になり、NIXLやMooncakeなどの柔軟なKV cache転送バックエンドを公開し、さまざまな展開シナリオに対応します。

これらの最適化により、推論ソフトウェアスタックがBlackwell Ultraの特性と整合し、より高い利用率を促進し、ハードウェアの能力を実際のスループットに変換します。

GB200 NVL72で8倍の性能向上

GB300 NVL72が私たちの新しい性能フラッグシップですが、GB200 NVL72上でのSGLangの最適化も継続しています。4か月前のInferenceMAXv1提出と比較して、最新のv2バージョンは低精度NVFP4を採用し、高スループットモードでGPUあたりトークンを最大8倍、高対話モードでユーザーあたりトークンを最大4倍向上させ、より良いトークン経済性とエンドユーザー体験を実現しています。これらの結果は、NVIDIAとSGLangエンジニアリング協力の力を実証しています。

図3

展望未来

私たちとNVIDIAのロードマップは、InferenceXv2の25倍のマイルストーンで止まりません。次の段階では以下に焦点を当てます:

  • GB300 NVL72でMTPを有効にし、Hopper比でさらなる性能向上を実現。
  • レイテンシに敏感な展開と高スループット展開に向けたGB300 NVL72の継続的な最適化。
  • Qwenモデルファミリー(最新のQwen 3.5を含む)に対するBlackwellとBlackwell Ultra上でのSGLangのチューニング。
  • これらの最適化を将来のNVIDIA Vera Rubin NVL72システムにもたらす。

NVIDIAとの継続的な協力により、SGLangは推論性能のフロンティアを継続的に推進し、次世代フロンティア推論モデルの展開コストを削減することを目指しています。

謝辞

以下のチームと協力者に心から感謝いたします:

NVIDIAチーム:Amr Elmeleegy, Cyrus Chang, Elvis Chen, Grace Ho, Hao Lu, Ishan Dhanani, Jinyan Chen, Julien Lin, Kaixi Hou, Kedar Potar, Kyle Liang, Lee Nau, Mathew Wicks, Nicolas Castet, Pen Chung Li, Po-Han Huang, Qixiang Lin, Shu Wang, Shu-Hao Yeh, Trevor Morris, Weiliang Liu, Xuting Zhou, Yangmin Li およびその他多数のメンバー。

SGLangコアチームおよびコミュニティコントリビューター:Baizhou Zhang, Jingyi Chen, Liangsheng Yin, Shangming Cai, Rain Jiang, Cheng Wan, Qiaolin Yu, Lianmin Zheng。