MLPerf Storage v2.0 ベンチマークテスト結果発表

MLPerf Storage v2.0 概要

MLPerf Storageは、MLCommons組織が開発した標準化ベンチマークテストスイートで、AIワークロード下でのストレージシステム性能を評価するために特別に設計されています。v2.0版は2025年8月に発表され、より大規模なデータセット(1TB以上のトレーニングデータなど)や、より現実的なシナリオに近いAIタスク(GPT-3スタイルモデルの事前学習、ファインチューニング、Stable Diffusionなどの生成AI推論)を含む複数のアップグレードが導入されました。

今回のテストでは、マルチノードGPUクラスター環境下での高並行I/O操作をシミュレートし、読み取りスループット書き込みスループット読み取りレイテンシ書き込みレイテンシという主要指標に焦点を当てています。

テスト結果のハイライト

  • トップ性能:NVIDIA DGX SuperPODとDDN EXAScalerストレージシステムの組み合わせが、256 GPUトレーニングタスクにおいて、読み取りスループット最大45 TB/s、書き込みスループット32 TB/sを実現し、他の提出結果をリードしています。
  • 推論最適化:Pure Storage FlashArrayがStable Diffusion推論ベンチマークにおいて、レイテンシをわずか50μsに抑え、スループットは20 TB/sを超え、リアルタイム生成アプリケーションに適しています。
  • ネットワーク革新:多くのシステムがNVMe-oF over RoCEv2またはInfiniBandを採用し、エンドツーエンドの低レイテンシを実現しています。

詳細な結果分析

MLCommonsは20以上の提出結果を発表し、シングルマシンからスーパーコンピューティングクラスターまで多様な構成をカバーしています。

トレーニングベンチマーク

  • NVIDIA + DDN:読み取り45 TB/s、完了時間をv1.0と比較して25%短縮。
  • NetApp + NVIDIA:最もバランスが良く、コストパフォーマンスに優れる。
  • HPE + VAST Data:大規模拡張において優れたパフォーマンスを発揮し、1024 GPUをサポート。

推論ベンチマーク

  • Pure Storage:レイテンシを40%最適化、Llamaモデル推論に適用。
  • IBM Storage Scale:高密度デプロイメントの優位性が顕著。

すべての結果は厳格な監査を経ており、再現性と公平性が確保されています。グラフが示すように、ノード数の増加に伴い、線形スケーラビリティが重要な課題となっています。

業界への意義

MLPerf Storage v2.0の結果は、AIインフラストラクチャにおけるストレージがもはやボトルネックではなくなり、高性能ストレージがAIトレーニングアクセラレータの標準装備となりつつあることを浮き彫りにしています。ベンダー間の激しい競争により、NVMe、QDRなどの技術の反復が推進されています。LMSYS Orgなどの組織が積極的に参加し、オープンソースベンチマークエコシステムの発展を支援しています。

完全な結果の詳細は公式ページをご覧ください。