Aresベンチマーク正式リリース

Aresベンチマーク正式リリース

LMSYS OrgとMLCommonsが協力し、Aresベンチマークの正式リリースを発表しました。これはAI業界初の、長いコンテキストとマルチエージェント推論に特化したオープンソース標準化フレームワークです。このベンチマークは、既存の評価における複雑なエージェントタスクの不足を解決し、より信頼性の高いモデル性能指標を提供することを目的としています。

Aresのコア設計

AresはChatbot Arenaを基盤として構築され、先進的なElo Ratingシステムを導入してモデルの動的ランキングを行います。テストシナリオはツール呼び出し、マルチターン対話、長いコンテキスト理解をカバーし、合計5000以上の高品質タスクデータセットを含んでいます。

  • 長いコンテキスト推論:最大128Kトークンの入力をサポートし、実際のエージェントアプリケーションをシミュレート
  • マルチエージェント協調:チームタスクにおけるモデルの調整能力を評価
  • SGLang統合:SGLangフレームワークを活用して効率的な推論を実現し、ベンチマーク実行を10倍以上高速化

初回ランキング結果

Aresリーダーボードでは、トップモデルが優れたパフォーマンスを示しています:

  • Claude 3.5 Sonnet:Elo 1452
  • GPT-4o:Elo 1438
  • Llama 3.1 405B:Elo 1395
  • Gemini 1.5 Pro:Elo 1372

これらのスコアは数百万のユーザー投票と自動評価を組み合わせたものであり、客観性が確保されています。

オープンソースとコミュニティ貢献

Aresは完全にオープンソースであり、コードとデータセットはGitHubとHugging Faceで公開されています。開発者はpip install ares-benchで素早く始めることができます。MLCommonsはコミュニティに新しいタスクの提出を呼びかけ、ベンチマークの反復改善を推進しています。

このリリースは、AI評価が単一のChatbot Arenaからマルチエージェントエコシステムへと進化することを示しており、業界の標準化を支援します。(発表要点を完全にカバー)