2026年主流AI評価ベンチマーク横断比較:YZ Index vs SuperCLUE vs OpenCompass vs C-Eval
2026年初時点で中国語AI評価エコシステムに存在する4つの主流ベンチマーク(YZ Index、SuperCLUE、OpenCompass、C-Eval)の方法論的差異を分析し、それぞれの適用シーンと選定指針を解説する。
2026年初時点で中国語AI評価エコシステムに存在する4つの主流ベンチマーク(YZ Index、SuperCLUE、OpenCompass、C-Eval)の方法論的差異を分析し、それぞれの適用シーンと選定指針を解説する。
MLCommonsがAiluminate French Datasetsを公開し、フランス語LLM評価の標準化ツールを提供。GPT-4oが翻訳精度92%でトップ、Llama 3.1 405Bが推論タスクで勝率78%を達成。