MLPerf Auto v0.5 ベンチマーク結果発表：LMSYS Org がトップに

2026年2月10日 669 約3分 MLC

MLC MLPerf AutoML LMSYS Chatbot Arena SGLang

MLPerf Auto v0.5 ベンチマーク概要

MLCommonsはMLPerf Auto v0.5の最新結果を発表した。これはAutoML分野の権威あるベンチマークテストで、自動化されたハイパーパラメータチューニングとモデル選択に特化している。従来のCVやNLPタスクとは異なり、今回のバージョンは特に大規模言語モデル（LLM）シナリオに焦点を当て、実際のユーザーの好みを反映するために、Chatbot ArenaのEloレーティングを品質の代理指標として導入した。

LMSYS Orgの優位性のあるサブミッション

LMSYS Org（lmsys.org）が提出した結果がトップに位置している。彼らはChatbot Arena Hard Autoに基づく自動化パイプラインを開発し、数百万のユーザー投票データを活用して最適化プロセスを駆動している。

コア技術スタック：SGLangランタイム + vLLMバックエンド、効率的な連続バッチ処理とPagedAttentionをサポート。
ターゲットモデル：Llama 3.1 405B-Instruct、8x H100 GPU上でトレーニング。
主要結果：Eloレーティング: 1312（最高スコア）、品質-時間積分は1.28e6で、ベースラインを大きく上回る。

彼らの手法は強化学習（RL）によるファインチューニングとアーキテクチャ探索を通じて、限られた計算予算内で最適なElo向上を実現した。

その他の参加者のパフォーマンス

Google CloudはAutoML Tablesを使用し、NVIDIAはNeMoベースの最適化結果を提出して、それぞれElo 1275と1280を獲得した。しかし、多目的最適化（品質 vs. 効率）において、LMSYSのパレート前線はより優れている。

提出者	最高Elo	時間 (s)	ハードウェア
LMSYS Org	1312	7200	8x H100
Google	1275	8500	TPU v5p
NVIDIA	1280	6800	8x H200

技術的ハイライトと示唆

今回のベンチマークは分散AutoMLを導入し、マルチノード協調探索をサポートしている。LMSYSの革新は、Arenaデータをリアルタイムで統合し、合成データセットのバイアスを回避した点にある。同時に、SGLangのゼロオーバーヘッドバッチ処理により、推論レイテンシが大幅に削減された。

結果は、LLM AutoMLが静的ベンチマークから動的なユーザー駆動型最適化へと移行していることを示しており、将来的にはマルチモーダルタスクにさらに統合される予定である。

完全な結果の詳細はMLCommons公式サイトを参照。

MLPerf Auto v0.5 ベンチマーク結果発表：LMSYS Org がトップに

MLPerf Auto v0.5 ベンチマーク概要

LMSYS Orgの優位性のあるサブミッション

その他の参加者のパフォーマンス

技術的ハイライトと示唆

関連記事