LLM基准に関するニュース

2026年主流AI評価ベンチマーク横断比較：YZ Index vs SuperCLUE vs OpenCompass vs C-Eval

2026年初時点で中国語AI評価エコシステムに存在する4つの主流ベンチマーク（YZ Index、SuperCLUE、OpenCompass、C-Eval）の方法論的差異を分析し、それぞれの適用シーンと選定指針を解説する。

MLCommonsがAiluminate French Datasetsを公開し、フランス語LLM評価の標準化ツールを提供。GPT-4oが翻訳精度92%でトップ、Llama 3.1 405Bが推論タスクで勝率78%を達成。