AAAI 2025：LMSYS OrgがChatbot Arenaの最新ベンチマークを発表

2026年2月10日 4,242 約3分 MLC

MLC AAAI 2025 Chatbot Arena Elo Rating SGLang AI基准

AAAI 2025：LMSYS OrgがChatbot Arenaの最新ベンチマークを発表

LMSYS OrgはAIコミュニティの重要な勢力として、AAAI 2025大会でChatbot Arenaの最新ベンチマークテスト結果を重要発表した。この更新は世界のAIチャットボットランキングを刷新しただけでなく、開発者に貴重なモデル最適化の洞察を提供している。

Chatbot Arenaベンチマーク概要

Chatbot ArenaはLMSYSが発表した画期的なプラットフォームで、匿名ユーザーの対戦投票によってElo Ratingスコアを生成する。このシステムは実際のシナリオをシミュレートし、ユーザーが異なるモデルの回答をブラインド評価し、最終的に権威あるランキングを形成する。今回の更新時点で、すでに300万回以上の投票が集積され、100以上のモデルをカバーしている。

トップモデルのパフォーマンス

Claude 3.5 Sonnet：Elo 1308、数ヶ月連続で首位を維持し、特に複雑な推論と創造的タスクで優れたパフォーマンスを発揮。
GPT-4o：Elo 1302、極めてバランスが良く、マルチモーダル能力で先行。
Gemini 1.5 Pro：Elo 1290、長いコンテキスト処理能力が突出。
オープンソースの注目点：Llama 3.1 405B Elo 1285、コストパフォーマンスが高く、クローズドソースモデルとの差を縮小。

SGLangなどの技術革新

レポートは特にSGLangを紹介している。これは効率的な推論フレームワークで、モデルのスループットを2-5倍向上させることができる。RadixAttentionとゼロオーバーヘッドバッチ処理により、SGLangは大幅に遅延を削減し、リアルタイムの多ラウンド対話をサポートする。LMSYSチームはArenaでの応用を実演し、モデルが高負荷下でも高いEloスコアを維持できるよう支援していることを示した。

主要データ比較

モデル	Elo Rating	勝率（%）	カテゴリー優位性
Claude 3.5 Sonnet	1308	58.2	推論/コーディング
GPT-4o	1302	57.5	マルチモーダル
Llama 3.1 405B	1285	55.1	オープンソース/コスト

業界への影響と展望

今回のAAAI 2025更新は、従来のベンチマークのバイアスを回避する、ユーザー主導の評価の重要性を浮き彫りにした。LMSYS Orgはより多くのモデルがArenaに参加し、オープンソースエコシステムの発展を推進することを呼びかけている。将来的に、彼らはより多くの中国語と多言語テストを統合し、グローバルAIの公平な競争を支援する計画だ。

詳細は原文リンクをご覧ください。