MLPerf Training v5.1ベンチマーク結果発表

MLCommons組織がMLPerf Training v5.1ベンチマーク結果を発表した。これはAIモデル訓練性能評価分野における最新の進展である。今回の提出には9つのコアワークロードが含まれ、NVIDIA、Intel、AMD、Google Cloudなど複数のベンダーが参加し、単一ノードから数千GPUの大規模クラスタまでの訓練能力を示した。

主要ハイライトと記録保持者

NVIDIAはDGX H100およびH200システムにより大半のベンチマークを主導:

  • BERT:NVIDIAが8x H100 SXMを使用し、1,363.94 samples/sで記録を更新。
  • DLRM v2.0:NVIDIA 2,882.59 samples/s、256x H100 NVL。
  • ResNet-50:NVIDIA 1,360,368 images/s、2,048x H100。
  • Stable Diffusion XL(新ベンチマーク):NVIDIA 2,048x H100で効率的な生成を実現。
  • Llama 70B FP8(新ベンチマーク):NVIDIA 1,536x H100、初めてFP8量子化訓練を導入し、計算要求を大幅に削減。

新規ベンチマークと技術革新

v5.1では複数の最先端ワークロードを導入:

  • GPT-J 6B:中小規模生成モデルの訓練をテスト。
  • Llama 70B FP8:低精度訓練の実用性を検証、NVIDIAがリード。
  • Stable Diffusion XL:拡散モデルによる画像生成訓練に焦点。

IntelはGaudi 3の結果を提出し、Llama 70B FP8で優れた性能を示した。AMD MI300XはResNet-50などのベンチマークで進歩を遂げた。Google CloudやCoreWeaveなどのクラウドプロバイダーも参加し、プロダクションレベルのデプロイを強調した。

性能トレンドと意義

v5.0と比較して、結果は訓練速度が20%-50%向上したことを示しており、これはNVLinkインターコネクト、TransformerEngineの最適化、量子化技術によるものである。MLPerf Trainingベンチマークは、将来的にLlama 405Bを含む可能性があるなど、より大規模なモデルへと進化しており、AIハードウェアの標準化と公平な比較を推進している。

完全な結果の詳細はMLCommons公式サイトを参照。