MLPerf Client v1.0発表:初のクライアントAI推論ベンチマークテスト結果

MLCommons組織がMLPerf Client v1.0ベンチマークテストの初回結果を発表した。これはクライアントおよびエッジデバイス向けに設計された初のAI推論性能ベンチマークで、モバイルデバイス上の生成AIと従来型AIタスクの性能を評価することを目的としている。

ベンチマークテストの概要

MLPerf Client v1.0はモバイルおよびエッジコンピューティングシナリオに焦点を当て、6つの主要タスクを導入している:

  • Image Super-Resolution:Real-ESRGAN x4モデルを使用してDIV2K検証セットを処理。
  • Image Classification:ImageNetデータセット上のMobileNet V3。
  • Object Detection:COCO val2017データセット上のYOLOv5。
  • Speech-to-Text:LibriSpeechデータセット上のConformerモデル。
  • Chatbot:初めてLlama 3.1 8B Instructモデルを導入し、ShareGPT-4oデータセットの対話生成をサポート。
  • Image Generation:Stable Diffusion XL TurboでMS COCO 2014プロンプト画像を生成。

テストシナリオはOffline(バッチ処理)、Server(リアルタイムリクエスト)、SingleStream(シングルストリーム)、MultipleStream(マルチストリーム)をカバーし、品質目標しきい値により結果の比較可能性を確保している。

参加者と結果のハイライト

今回の提出はArm、Intel、MediaTek、Qualcomm、Samsung、Tenstorrent等のメーカーから行われた。主な発見事項は以下の通り:

  • QualcommのSnapdragonプラットフォームが複数のタスクでリードし、例えばChatbot SingleStreamシナリオで高いスループットを達成。
  • Arm Total DesignがChatbotタスクで優れた性能を示し、効率的なLlama 3.1 8B推論を実現。
  • MediaTekとSamsungが画像生成と音声タスクで強力な結果を提出。
  • 初回のChatbot結果は、量子化技術(INT4など)と最適化フレームワークの重要性を強調。

Samples/sやLatencyなどの性能指標を含む完全な結果表は公式ページで確認できる。

意義と展望

MLPerf Client v1.0はクライアントAIベンチマークの空白を埋め、SoCメーカーがスマートフォンやタブレット等のデバイスでの生成AI展開を最適化することを推進している。将来のバージョンではより多くのモデルとシナリオを拡張し、AIエッジコンピューティングの標準化を促進する予定である。