Shopify VLM推論ベンチマークテスト詳解

はじめに

MLCommons組織が最新のVLM(Vision-Language Model)推論ベンチマークテストの結果を発表し、その中でShopifyチームの提出が注目を集めている。このテストはLMSYS Orgのサポートを受け、高負荷の電子商取引シーンにおける視覚言語モデルの推論性能に焦点を当て、本番環境へのデプロイに標準化された評価を提供することを目的としている。

テストフレームワークとモデル

ベンチマークはMLPerf Inference v5.0フレームワークを採用し、コアモデルにはLLaVA-1.5-7BMiniCPM-V 2.6が含まれる。データセットはImageNet-VQA、VQAv2などをカバーし、電子商取引における視覚的質問応答、製品説明生成などの実際のタスクをシミュレートしている。

  • 指標:スループット(images/sec)、レイテンシ(ms)、精度(精度スコア)。
  • ハードウェア:NVIDIA A100/H100 GPU、ソフトウェアスタックにはvLLM、SGLangが含まれる。

Shopifyの最適化のハイライト

Shopifyチームは巧みにSGLangを統合し、動的バッチ処理とKVキャッシュ最適化を行い、単一A100上で150+ images/secのスループットを実現し、エンドツーエンドのレイテンシは200ms未満、Elo Ratingは1250+に達し、複数のクラウドベンダーの提出を上回った。

主要な結果の比較

提出者モデルスループット (img/s)レイテンシ (ms, p99)精度
ShopifyLLaVA-1.5-7B16818578.5%
Cloud Vendor ALLaVA-1.5-7B14221076.2%
Cloud Vendor BMiniCPM-V15519577.8%

チャートはShopifyがマルチGPUスケーラビリティで先行していることを示し、8x A100構成では1200+ img/sまで線形スケーリングしている。

課題と示唆

テストはVLM推論のペインポイントを露呈した:高解像度画像の前処理時間消費、長いコンテキストによるトークン爆発。Shopifyは量子化(INT8)とSpeculative Decodingの採用を提案し、デプロイメント効率を向上させることを推奨している。

結論

今回のVLM推論ベンチマークはShopifyのAIインフラストラクチャにおける実力を示し、電子商取引分野でのVLM実装を推進している。今後、より多くのオープンソース最適化が期待され、MLCommonsの更新にご注目いただきたい。