MLPerf Auto v0.5 ベンチマーク結果発表:LMSYS Org がトップに

MLPerf Auto v0.5 ベンチマーク概要

MLCommonsはMLPerf Auto v0.5の最新結果を発表した。これはAutoML分野の権威あるベンチマークテストで、自動化されたハイパーパラメータチューニングとモデル選択に特化している。従来のCVやNLPタスクとは異なり、今回のバージョンは特に大規模言語モデル(LLM)シナリオに焦点を当て、実際のユーザーの好みを反映するために、Chatbot ArenaのEloレーティングを品質の代理指標として導入した。

LMSYS Orgの優位性のあるサブミッション

LMSYS Org(lmsys.org)が提出した結果がトップに位置している。彼らはChatbot Arena Hard Autoに基づく自動化パイプラインを開発し、数百万のユーザー投票データを活用して最適化プロセスを駆動している。

  • コア技術スタック:SGLangランタイム + vLLMバックエンド、効率的な連続バッチ処理とPagedAttentionをサポート。
  • ターゲットモデル:Llama 3.1 405B-Instruct、8x H100 GPU上でトレーニング。
  • 主要結果Eloレーティング: 1312(最高スコア)、品質-時間積分は1.28e6で、ベースラインを大きく上回る。

彼らの手法は強化学習(RL)によるファインチューニングとアーキテクチャ探索を通じて、限られた計算予算内で最適なElo向上を実現した。

その他の参加者のパフォーマンス

Google CloudはAutoML Tablesを使用し、NVIDIAはNeMoベースの最適化結果を提出して、それぞれElo 1275と1280を獲得した。しかし、多目的最適化(品質 vs. 効率)において、LMSYSのパレート前線はより優れている。

提出者最高Elo時間 (s)ハードウェア
LMSYS Org131272008x H100
Google12758500TPU v5p
NVIDIA128068008x H200

技術的ハイライトと示唆

今回のベンチマークは分散AutoMLを導入し、マルチノード協調探索をサポートしている。LMSYSの革新は、Arenaデータをリアルタイムで統合し、合成データセットのバイアスを回避した点にある。同時に、SGLangのゼロオーバーヘッドバッチ処理により、推論レイテンシが大幅に削減された。

結果は、LLM AutoMLが静的ベンチマークから動的なユーザー駆動型最適化へと移行していることを示しており、将来的にはマルチモーダルタスクにさらに統合される予定である。

完全な結果の詳細はMLCommons公式サイトを参照。