MLPerf Training v5.0ベンチマーク結果公開

MLCommons組織はMLPerf Training v5.0ベンチマーク結果を正式に発表した。これはAIモデル訓練性能評価分野における最新のマイルストーンである。このベンチマークは大規模AI訓練タスクの性能、効率、拡張性に焦点を当て、研究者や企業がハードウェアプラットフォームの実際の能力を評価するのに役立つ。

テストタスクと更新のハイライト

v5.0バージョンは、コンピュータビジョンから大規模言語モデルまでの全範囲をカバーする複数の新タスクと最適化を導入した:

  • BERT:自然言語処理基礎タスク。
  • ResNet-50:画像分類ベンチマーク。
  • T5:テキストからテキストへの変換。
  • GPT-3 175B:大規模生成言語モデル訓練。
  • 新たにLlama 3.1 405BStable Diffusion XLを追加し、現在の人気オープンソースモデルを反映。

テストは初回精度到達時間(Time to First Accuracy)と最高精度(Highest Accuracy)などの指標を重視し、結果の公平性と比較可能性を確保している。

クローズド部門(Closed Division)の記録

クローズド部門はベンチマーク規則の厳格な遵守を要求し、NVIDIAが複数の記録を主導:

  • DGX H100システムはGPT-3 175Bタスクで最高性能を達成し、訓練時間を史上最短に短縮。
  • H200 GPUはLlama 3.1 405Bで優れた性能を発揮し、HBM3eメモリの優位性を実証。
  • Google Cloud TPU v5pはT5タスクで効率的な結果を提出。

詳細なデータは公式結果ページで確認可能。

オープン部門(Open Division)のイノベーション

オープン部門はソフトウェア最適化を許可し、AMD MI300XやIntel Gaudi3などのプラットフォームが頭角を現した:

  • AMDはResNet-50でNVIDIA記録に迫る。
  • Graphcore IPUはBERTタスクで独自の優位性を実証。

性能トレンドと洞察

v4.0と比較して、v5.0の結果は訓練効率が30%以上向上したことを示しており、これはNVLink相互接続やFlashAttentionなどの技術によるものである。ベンダーは50以上のシステムを提出し、クラウドからエッジ展開までをカバーしている。このベンチマークはAIハードウェア競争を強化し、H100からBlackwellアーキテクチャへの進化を推進している。

MLPerf Training v5.0の結果は、AI実務者にとって貴重な参考資料を提供し、訓練パイプラインとハードウェア選定の最適化を支援する。詳細についてはMLCommons公式サイトをご覧ください。