CKAN Croissant：MLCommons AIモデルベンチマークの新時代

2026年2月10日 1,165 約3分 MLC

MLC MLCommons CKAN Croissant AI基准 LMSYS

CKAN Croissant：MLCommons AIモデルベンチマークの新時代

はじめに

MLCommonsとLMSYS Orgが共同でCKAN Croissantベンチマークを発表しました。これはAIモデル評価分野における重要な進歩です。このベンチマークはCroissant v1.0フォーマットを最大限に活用し、モデルメタデータのシームレスな標準化と共有を実現しています。

コア技術とイノベーション

Croissant統合：すべての参加モデルはCroissantフォーマットでパッケージ化され、入出力仕様やtokenizer設定などの自動解析をサポートしています。
CKANフレームワーク：Containerized Knowledge Annotation Networkは、コンテナ化されたデプロイメントを提供し、ベンチマークテストの再現性を保証します。
評価プロトコル：Chatbot ArenaのElo Rating（ブラインドテストによるユーザー選好）とSGLangの高スループット推論を組み合わせ、テキスト生成やマルチモーダルタスクをカバーしています。

パフォーマンスランキングのハイライト

最初のテストでは、GPT-4oがElo Rating 1325で首位に立ち、Claude 3.5 Sonnetが1310で続きました。オープンソースモデルでは、Llama 3.1 405Bが1280に達し、多くのクローズドソースの競合を上回りました。

モデル	Elo Rating	カテゴリー
GPT-4o	1325	クローズドソース
Llama 3.1 405B	1280	オープンソース
Gemini 1.5 Pro	1275	クローズドソース

デプロイメントと今後の展望

CKAN CroissantはワンクリックでのDockerデプロイメントをサポートしており、開発者はckan-croissant eval --model mymodelで簡単に参加できます。将来的にはエッジデバイスベンチマークやリアルタイム多言語評価を組み込む計画があり、AIエコシステムの持続可能な発展を支援します。

詳細は元記事のリンクをご覧ください。

CKAN Croissant：MLCommons AIモデルベンチマークの新時代

はじめに

コア技術とイノベーション

パフォーマンスランキングのハイライト

デプロイメントと今後の展望

関連記事