MLCommons 小型LLM推論ベンチマーク5.1リリース

MLCommons組織はSmall LLM Inference 5.1ベンチマークを発表しました。これはMLPerf Inferenceシリーズにおいて小型言語モデル(1-3Bパラメータ)に焦点を当てた最新版です。このベンチマークは、チャットボット、テキスト生成などのタスクを含む実際の推論シナリオでのSLMの性能を評価することを目的としており、開発者が効率的なハードウェアの選択と最適化フレームワークを選ぶのに役立ちます。

ベンチマーク概要と更新内容

Small LLM InferenceベンチマークはChatbot Arenaスタイルのインタラクションをシミュレートし、TinyLlama、Gemma 2 2B、Llama 3.2 1B、Phi-3.5-mini-instructなど様々なSLMをサポートしています。新バージョン5.1の主な更新内容は以下の通りです:

  • Llama 3.2 1Bモデルを新たに追加し、視覚言語タスクの拡張をサポート。
  • テストシナリオの最適化:プリフィル(Prefill)とデコード(Decode)フェーズを分離して評価し、総トークン数は2048に。
  • SGLangやvLLMなどの推論エンジンを導入し、動的バッチ処理をサポート。
  • ハードウェア範囲をデータセンターGPU(H100、H200など)、エッジデバイス(Jetson Orinなど)、CPUまで拡張。

テストはMLPerfルールに従い、closed(クローズドソース最適化)とopen(オープンソース)トラックに分かれ、公平な比較を保証しています。

主要な性能結果

データセンターシナリオでは、closedトラックの90パーセンタイル応答時間とシステムスループットがコア指標となっています。

Closedトラックのリーダー

  • NVIDIA H200:Llama 3.2 1Bモデルで、最高スループット1200+ queries/sを達成し、前世代比25%向上。
  • AMD Instinct MI300X:僅差で続き、コストパフォーマンスが優れています。
  • Intel Gaudi3:初回提出で競争力を示しました。

Openトラックのハイライト

SGLangフレームワークはデコード効率でリードし、FlashAttention-2と組み合わせて1.5倍の高速化を実現。vLLMは高い同時実行性において安定したパフォーマンスを示しました。

ハードウェアモデルスループット (qps)レイテンシ (ms, p90)
H200 SXMLlama 3.2 1B1250180
MI300XPhi-3.5-mini1100210

エッジデバイスでは、NVIDIA Jetson AGX Orinがリアルタイム応答で優れており、モバイルAIアプリケーションに適しています。

ランキングと分析

完全なランキングは公式ページをご覧ください。今回の結果は量子化(INT4/FP8)と連続バッチ処理の重要性を浮き彫りにし、SLMのクラウドからエッジへの移行を推進しています。将来的に、ベンチマークはより多くのマルチモーダルSLMをサポートする予定です。

この発表はAIハードウェア選定に貴重な参考資料を提供し、効率的なSLMデプロイメントを支援します。