MLPerf Auto v0.5 ベンチマーク概要
MLCommonsはMLPerf Auto v0.5の最新結果を発表した。これはAutoML分野の権威あるベンチマークテストで、自動化されたハイパーパラメータチューニングとモデル選択に特化している。従来のCVやNLPタスクとは異なり、今回のバージョンは特に大規模言語モデル(LLM)シナリオに焦点を当て、実際のユーザーの好みを反映するために、Chatbot ArenaのEloレーティングを品質の代理指標として導入した。
LMSYS Orgの優位性のあるサブミッション
LMSYS Org(lmsys.org)が提出した結果がトップに位置している。彼らはChatbot Arena Hard Autoに基づく自動化パイプラインを開発し、数百万のユーザー投票データを活用して最適化プロセスを駆動している。
- コア技術スタック:SGLangランタイム + vLLMバックエンド、効率的な連続バッチ処理とPagedAttentionをサポート。
- ターゲットモデル:Llama 3.1 405B-Instruct、8x H100 GPU上でトレーニング。
- 主要結果:
Eloレーティング: 1312(最高スコア)、品質-時間積分は1.28e6で、ベースラインを大きく上回る。
彼らの手法は強化学習(RL)によるファインチューニングとアーキテクチャ探索を通じて、限られた計算予算内で最適なElo向上を実現した。
その他の参加者のパフォーマンス
Google CloudはAutoML Tablesを使用し、NVIDIAはNeMoベースの最適化結果を提出して、それぞれElo 1275と1280を獲得した。しかし、多目的最適化(品質 vs. 効率)において、LMSYSのパレート前線はより優れている。
| 提出者 | 最高Elo | 時間 (s) | ハードウェア |
|---|---|---|---|
| LMSYS Org | 1312 | 7200 | 8x H100 |
| 1275 | 8500 | TPU v5p | |
| NVIDIA | 1280 | 6800 | 8x H200 |
技術的ハイライトと示唆
今回のベンチマークは分散AutoMLを導入し、マルチノード協調探索をサポートしている。LMSYSの革新は、Arenaデータをリアルタイムで統合し、合成データセットのバイアスを回避した点にある。同時に、SGLangのゼロオーバーヘッドバッチ処理により、推論レイテンシが大幅に削減された。
結果は、LLM AutoMLが静的ベンチマークから動的なユーザー駆動型最適化へと移行していることを示しており、将来的にはマルチモーダルタスクにさらに統合される予定である。
完全な結果の詳細はMLCommons公式サイトを参照。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接