CKAN Croissant:MLCommons AIモデルベンチマークの新時代

はじめに

MLCommonsとLMSYS Orgが共同でCKAN Croissantベンチマークを発表しました。これはAIモデル評価分野における重要な進歩です。このベンチマークはCroissant v1.0フォーマットを最大限に活用し、モデルメタデータのシームレスな標準化と共有を実現しています。

コア技術とイノベーション

  • Croissant統合:すべての参加モデルはCroissantフォーマットでパッケージ化され、入出力仕様やtokenizer設定などの自動解析をサポートしています。
  • CKANフレームワーク:Containerized Knowledge Annotation Networkは、コンテナ化されたデプロイメントを提供し、ベンチマークテストの再現性を保証します。
  • 評価プロトコル:Chatbot ArenaのElo Rating(ブラインドテストによるユーザー選好)とSGLangの高スループット推論を組み合わせ、テキスト生成やマルチモーダルタスクをカバーしています。

パフォーマンスランキングのハイライト

最初のテストでは、GPT-4oがElo Rating 1325で首位に立ち、Claude 3.5 Sonnetが1310で続きました。オープンソースモデルでは、Llama 3.1 405Bが1280に達し、多くのクローズドソースの競合を上回りました。

モデルElo Ratingカテゴリー
GPT-4o1325クローズドソース
Llama 3.1 405B1280オープンソース
Gemini 1.5 Pro1275クローズドソース

デプロイメントと今後の展望

CKAN CroissantはワンクリックでのDockerデプロイメントをサポートしており、開発者はckan-croissant eval --model mymodelで簡単に参加できます。将来的にはエッジデバイスベンチマークやリアルタイム多言語評価を組み込む計画があり、AIエコシステムの持続可能な発展を支援します。

詳細は元記事のリンクをご覧ください。