MLCommons組織がMLPerf Training v5.1ベンチマーク結果を発表した。これはAIモデル訓練性能評価分野における最新の進展である。今回の提出には9つのコアワークロードが含まれ、NVIDIA、Intel、AMD、Google Cloudなど複数のベンダーが参加し、単一ノードから数千GPUの大規模クラスタまでの訓練能力を示した。
主要ハイライトと記録保持者
NVIDIAはDGX H100およびH200システムにより大半のベンチマークを主導:
- BERT:NVIDIAが8x H100 SXMを使用し、1,363.94 samples/sで記録を更新。
- DLRM v2.0:NVIDIA 2,882.59 samples/s、256x H100 NVL。
- ResNet-50:NVIDIA 1,360,368 images/s、2,048x H100。
- Stable Diffusion XL(新ベンチマーク):NVIDIA 2,048x H100で効率的な生成を実現。
- Llama 70B FP8(新ベンチマーク):NVIDIA 1,536x H100、初めてFP8量子化訓練を導入し、計算要求を大幅に削減。
新規ベンチマークと技術革新
v5.1では複数の最先端ワークロードを導入:
- GPT-J 6B:中小規模生成モデルの訓練をテスト。
- Llama 70B FP8:低精度訓練の実用性を検証、NVIDIAがリード。
- Stable Diffusion XL:拡散モデルによる画像生成訓練に焦点。
IntelはGaudi 3の結果を提出し、Llama 70B FP8で優れた性能を示した。AMD MI300XはResNet-50などのベンチマークで進歩を遂げた。Google CloudやCoreWeaveなどのクラウドプロバイダーも参加し、プロダクションレベルのデプロイを強調した。
性能トレンドと意義
v5.0と比較して、結果は訓練速度が20%-50%向上したことを示しており、これはNVLinkインターコネクト、TransformerEngineの最適化、量子化技術によるものである。MLPerf Trainingベンチマークは、将来的にLlama 405Bを含む可能性があるなど、より大規模なモデルへと進化しており、AIハードウェアの標準化と公平な比較を推進している。
完全な結果の詳細はMLCommons公式サイトを参照。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接