MLPerf Inference v5.1ベンチマークテスト結果が公開

MLCommons組織はMLPerf Inference v5.1ベンチマークテスト結果の正式公開を発表しました。これはv5.0に続く最新版で、生成AIモデルの推論性能評価に焦点を当てています。LMSYS Orgなどの貢献者により推進された今回のテストでは、ベンチマーク範囲が拡張され、より挑戦的なワークロードが導入され、業界が実際のシナリオでのシステム性能を測定できるようになりました。

新規ベンチマークモデルとシナリオ

今回のテストでは、大規模言語モデル(LLM)の推論能力を重視した複数のベンチマークが追加されました:

  • Llama 3.1 405B:データセンターシナリオでのOffline、Server、Single Streamテスト。入力シーケンス長は2048トークン、出力は128トークン。
  • Llama 3.2 1B / 3B:エッジデバイス(Edge)シナリオで、画像-テキストマルチモーダルタスクをサポート。
  • BERT、ResNet-50、Stable Diffusionなどの従来のベンチマークも保持し、コンピュータビジョン、NLP、生成タスクを包括的にカバー。

テスト規則は厳格で、パフォーマンスカウンターの検証と電力測定の標準化が含まれ、提出システムはハードウェア構成を公開する必要があります。

パフォーマンスのハイライトと記録保持者

データセンターカテゴリでは、NVIDIAが複数の記録を独占:

  • H100 SXMがLlama 3.1 405B Offlineシナリオで最高システムスループット(system throughput)を達成。
  • H200 NVLがServerとSingle Streamで優れた性能を示し、低遅延最適化が顕著。

AMD MI300XがLlama 405B Serverシナリオで記録を更新し、Intel Gaudi3は中小規模モデルで競争力を強化。エッジデバイス分野では、QualcommとMediaTekが提出したSoCがLlama 3.2で効率的な推論を実現。

主要データとトレンド

ベンチマーク記録システム性能指標
Llama 3.1 405B OfflineNVIDIA H100 (8x)最高スループット [samples/s]
Llama 3.1 405B ServerAMD MI300X最低TTFT + 最高QPS
Llama 3.2 3B EdgeQualcomm SnapdragonOffline性能 [samples/s]

v5.0と比較して、結果は推論性能が20-50%向上したことを示しており、FP8量子化、FlashAttentionなどの最適化技術によるものです。ベンダーはSGLangやvLLMなどのランタイムフレームワークも探求しています。

業界への意義

MLPerf Inference v5.1の結果は、AIハードウェア競争の白熱化を浮き彫りにし、トレーニングから推論パラダイムへの転換を推進しています。将来のテストではDeepSeekやQwenなどのオープンソースモデルをさらに統合し、公正な比較を促進する予定です。開発者は公式リンクから完全なデータセットと提出ガイドラインをダウンロードできます。