MLPerf Client v0.6ベンチマークテスト結果発表

MLCommons組織は先日、MLPerf Client v0.6ベンチマークテスト結果を発表した。これは、スマートフォン、ノートパソコン、エッジデバイスなどのシナリオを対象とした、クライアント推論性能に特化した初の標準化ベンチマークスイートである。

新バージョンのハイライト

MLPerf Client v0.6は、クラシックなタスクと新たな大規模モデルを含む、より多くの最先端AIモデルをサポートするようワークロードを拡張した:

  • 画像分類:ResNet-50
  • 物体検出:RetinaNet
  • 音声テキスト変換:RNN-T
  • 医療画像セグメンテーション:3D-Unet
  • 推薦システム:DLRM v2
  • 自然言語処理:BERT
  • 大規模言語モデル:Llama 2 70B
  • 生成AI:Stable Diffusion

テストシナリオには、Offline、Server、SingleStream、および新たに追加されたMultiStream(2、4、8ストリーム)が含まれ、精度要件はINT8量子化またはFP16である。

提出結果概要

Arm、Intel、MediaTek、NVIDIA、Qualcomm、Samsungを含む複数のベンダーが積極的に参加した。以下は一部のトップパフォーマンスのハイライト:

Llama 2 70B(オフラインシナリオ)

  • NVIDIA(H100 TensorRT-LLM):サンプル/秒のスループットでリード
  • Qualcomm(Snapdragon 8 Gen 3):モバイルプラットフォーム最高

Stable Diffusion(シングルストリーム)

  • NVIDIAが生成速度を主導
  • MediaTek(Dimensity 9300):効率的なモバイル端末パフォーマンス

BERT(サーバーシナリオ)

プラットフォーム性能(サンプル/秒)
NVIDIA A100最高
Intel Xeon強力

詳細な結果は公式ページで確認できる。LMSYS Orgなどの組織がベンチマークフレームワークの最適化に貢献した。

意義と展望

今回のベンチマークは、クライアントAIハードウェアの急速な発展、特に量子化大規模モデルにおける突破口を明らかにした。将来のバージョンでは、より多くのマルチモーダルタスクが組み込まれ、AIのクラウドからエッジへの移行を推進することが予想される。