MLCommonsがMLPerf Inference v6.0ベンチマークテストの最新結果を発表

MLCommons®は先日、業界標準のMLPerf® Inference v6.0ベンチマークテストスイートの最新結果を発表しました。今回のアップデートでは複数の重要な進歩が導入され、ベンチマークテストが現在のAI展開の実際のシナリオをカバーし、AIシステムの性能を包括的に示すことを確保しています。

MLPerf Inference v6.0の11のデータセンターテストのうち、5つが新規または更新されており、同時にエッジシステムには物体検出テストが追加されました。主な変更点は以下の通りです:

  • GPT-OSS 120Bに基づく新しいオープンソース大規模言語モデルベンチマークで、数学、科学的推論、コーディングタスクをサポート;
  • 拡張されたDeepSeek-R1高度推論ベンチマークで、推測デコーディングをサポートするインタラクティブシナリオを新たに追加;
  • DLRMv3、推薦システムベンチマークの第3世代で、初めてシーケンシャル推薦テストを導入、Metaが大量のエンジニアリングサポートを提供;
  • スイート初のテキストから動画生成のベンチマーク;
  • 新しいビジョン言語モデル(VLM)ベンチマークで、Shopifyの製品カタログのマルチモーダルデータを構造化メタデータに変換;
  • Ultralytics YOLOv11 Largeモデルに基づくエッジ単一物体検出ベンチマークのアップグレード。

「これはInferenceベンチマークスイートに対する最も重要な改訂です」とDell Technologiesのシステム開発エンジニアリング技術者でMLPerf Inference作業部会の共同議長であるFrank Han氏は述べています。「メンバーの熱心な協力とエンジニアリングへの貢献はかつてないものであり、AIモデルと技術の急速な発展に追いつくために複数のベンチマークを更新し、テストの関連性と代表性を確保することを推進しました。」

オープンソースのMLPerf Inferenceベンチマークスイートは、アーキテクチャ中立で代表的かつ再現可能な方法でシステム性能を測定し、業界競争に公平なプラットフォームを提供し、イノベーション、性能、エネルギー効率の向上を促進することを目的としています。公開された結果は、AIシステムを調達・調整する顧客に重要な技術情報を提供します。

「データセット、タスク定義、専門知識を提供してくれたMeta、Shopify、Ultralyticsの深い協力に感謝します」とAMDの上級技術者でMLPerf Inference作業部会の共同議長であるMiro Hodak氏は述べています。「これらのパートナーシップにより、テストが業界の最新状況を反映することが保証されます。」

「MLPerf InferenceベンチマークはAI業界で透明性と説明責任を推進しています」とUltralyticsのCEO兼創設者であるGlenn Jocher氏は述べています。「私たちはこれを使用してYOLOモデルの実際の性能を検証し、開発者が賢明な意思決定を行えるよう支援しています。」

提出者とユーザー向けの新しいツール

Inference 6.0では新しいHarness LoadGen++が導入され、LLMが現在一般的なサービングスタイルのソフトウェアスタックを使用して実行できるようになりました。「LoadGen++は前世代からの重要なアップグレードであり、最先端技術を機敏に追跡するのに役立ちます」とHan氏は付け加えています。

さらに、結果はMLCommonsウェブサイトの新しいオンラインダッシュボードで閲覧でき、高度なフィルタリングとカスタムパフォーマンスチャートをサポートしています:https://mlcommons.org/visualizer

大規模マルチノードシステムが注目を集める

Inference 6.0の提出物は、技術プロバイダーが実際の推論負荷下でのマルチノードシステムの性能を示すことに熱心であることを示しています。マルチノード提出数は半年前のInference 5.1と比較して30%増加し、10%のシステムが10ノードを超え(前回はわずか2%)、最大システムは72ノード288アクセラレータに達し、ノード数は前回の最大システムの4倍になりました。

「AIアプリケーションが本番環境に入るにつれて、大規模で高性能なシステムへの需要が急増しています」とHodak氏は述べています。「マルチノードシステムはアーキテクチャ、ネットワーク、ストレージ、ソフトウェアの最適化を含む独自の課題をもたらし、ステークホルダーは大規模推論に積極的に対応しています。」

AIコミュニティがMLPerf Inferenceを引き続き支持

今回のベンチマークでは24の組織から提出を受けました:AMD、ASUSTeK、Cisco、CoreWeave、Dell、GATEOverflow、GigaComputing、Google、Hewlett Packard Enterprise、Intel、Inventec Corporation、KRAI、Lambda、Lenovo、MangoBoost、MiTAC、Nebius、Netweb Technologies India Limited、NVIDIA、Oracle、Quanta Cloud Technology、Red Hat、Stevens Institute of Technology、Supermicro。

「初めて提出したInventec Corporation、Netweb Technologies India Limited、Stevens Institute of Technologyを歓迎します」とHan氏は述べています。「Meta、Shopify、Ultralyticsなどのメンバー、貢献者、パートナーに感謝します。共に最も包括的なAI推論性能ベンチマークを構築し、コミュニティがより良い意思決定を行えるよう支援しています。」

結果の確認

MLPerf Inference v6.0結果ダッシュボードにアクセスして詳細をご覧ください。

MLCommonsについて

MLCommonsはグローバルAIベンチマークのリーダーであり、130以上のメンバーに支援されるオープンソースエンジニアリング連合で、学術、産業、市民社会を結集してAIの測定と改善を推進しています。2018年のMLPerfベンチマークの開始以来、機械学習性能の業界標準となり、透明性、安全性、速度、効率の向上を促進しています。詳細についてはMLCommons.orgにアクセスするか、メールでお問い合わせください。