異種CPU+GPU EPD分離によるVLMサービス性能の向上

2026年6月29日 11 約3分 LMSYS

LMSYS VLM服务 EPD解耦 SGLang 异构计算性能优化

はじめに

SGLangコミュニティはこれまでに、EPD分離がVLMサービスにとって必要かつ有益であることを実証しており、特に多画像入力シナリオにおいてTTFTを大幅に削減できることを示してきた。本稿では、画像集約型シナリオにおける主要なボトルネックが視覚エンコードにあることをさらに観察し、視覚エンコード処理の一部をヘッドノードのCPUにオフロードする手法を提案する。

視覚エンコーダ（CNN/ViT）は通常、言語モデル部分よりも小さく、AMX等の行列アクセラレータを搭載した現代のCPUでも十分に処理可能である。また、視覚エンコードはprefillフェーズにのみ発生するため、異種ワーカーの組み込みが容易であり、ワーカー間の複雑な状態管理も不要である。

デバイス対応加重ルーター

Dynamoコミュニティとの連携を通じて、チームはデバイス対応加重ルーティングパターンを動的ルーターに統合し、異種環境への分散配信をサポートした。このルーターはGPUとCPU間のバジェットスロットリング機構を導入し、GPUのCPUに対する相対スループットを能力比率Rで定義し、CPUに許容されるin-flightバジェットB_cpuを算出する。

計算式は B_cpu = I_gpu * N_cpu / (R * N_gpu) である。CPUインスタンスのin-flightリクエスト数がこのバジェットを下回る場合はCPUへルーティングし、超過する場合はGPUへルーティングする。

実験設定

環境はIntel Xeon 6747P CPU（4 NUMAノード）と5基のL40S GPUを使用し、モデルはQwen3-VL-8B-Instructを採用した。データセットは入出力長128/256トークン、解像度1080p、8枚の画像で構成され、QPSの範囲は1.0〜2.0である。デプロイ構成の比較対象は、1E/4PD純GPU構成と（4 CPU + 1 GPU）E/4PD異種構成であり、能力比率Rは12に設定した。

ベンチマーク結果

sglang.bench_servingスクリプトを使用してテストを実施し、P99 TTFT、P99 TPOT、およびリクエストスループットに重点を置いて評価した。

主な知見：

異種CPU+GPU EPD分離は、すべての指標において純GPU構成を上回った。
P99 TTFTとスループットが約1.2〜1.3倍向上し、CPUがGPUの視覚エンコード負荷を効果的に分担していることが示された。
P99 TPOTが1.3〜30倍低減し、視覚エンコードトラフィックに起因する生成キューの遅延が緩和された。

本手法は、純GPU EPD分離がもたらすROIをベースとして、ほぼゼロコストでさらに高い投資対効果を実現するものである。

異種CPU+GPU EPD分離によるVLMサービス性能の向上

はじめに

デバイス対応加重ルーター

実験設定

ベンチマーク結果

関連記事