異種CPU+GPU EPD分離によるVLMサービス性能の向上

異種CPU+GPU EPD分離によるVLMサービス性能の向上

はじめに

SGLangコミュニティはこれまでに、EPD分離がVLMサービスにとって必要かつ有益であることを実証しており、特に多画像入力シナリオにおいてTTFTを大幅に削減できることを示してきた。本稿では、画像集約型シナリオにおける主要なボトルネックが視覚エンコードにあることをさらに観察し、視覚エンコード処理の一部をヘッドノードのCPUにオフロードする手法を提案する。

視覚エンコーダ(CNN/ViT)は通常、言語モデル部分よりも小さく、AMX等の行列アクセラレータを搭載した現代のCPUでも十分に処理可能である。また、視覚エンコードはprefillフェーズにのみ発生するため、異種ワーカーの組み込みが容易であり、ワーカー間の複雑な状態管理も不要である。

デバイス対応加重ルーター

Dynamoコミュニティとの連携を通じて、チームはデバイス対応加重ルーティングパターンを動的ルーターに統合し、異種環境への分散配信をサポートした。このルーターはGPUとCPU間のバジェットスロットリング機構を導入し、GPUのCPUに対する相対スループットを能力比率Rで定義し、CPUに許容されるin-flightバジェットB_cpuを算出する。

計算式は B_cpu = I_gpu * N_cpu / (R * N_gpu) である。CPUインスタンスのin-flightリクエスト数がこのバジェットを下回る場合はCPUへルーティングし、超過する場合はGPUへルーティングする。

図1

実験設定

環境はIntel Xeon 6747P CPU(4 NUMAノード)と5基のL40S GPUを使用し、モデルはQwen3-VL-8B-Instructを採用した。データセットは入出力長128/256トークン、解像度1080p、8枚の画像で構成され、QPSの範囲は1.0〜2.0である。デプロイ構成の比較対象は、1E/4PD純GPU構成と(4 CPU + 1 GPU)E/4PD異種構成であり、能力比率Rは12に設定した。

ベンチマーク結果

sglang.bench_servingスクリプトを使用してテストを実施し、P99 TTFT、P99 TPOT、およびリクエストスループットに重点を置いて評価した。

図2図3図4

主な知見:

  • 異種CPU+GPU EPD分離は、すべての指標において純GPU構成を上回った。
  • P99 TTFTとスループットが約1.2〜1.3倍向上し、CPUがGPUの視覚エンコード負荷を効果的に分担していることが示された。
  • P99 TPOTが1.3〜30倍低減し、視覚エンコードトラフィックに起因する生成キューの遅延が緩和された。

本手法は、純GPU EPD分離がもたらすROIをベースとして、ほぼゼロコストでさらに高い投資対効果を実現するものである。