企業が大規模モデルを本番環境に導入しようとするとき、意思決定者が最初に直面する問題は「どのモデルを使うか」ではなく、「どのランキングを信じるべきか」であることが多い。2026年初頭、中国語AI評価エコシステムは初期の数個の学術ベンチマークから、それぞれ独自の方法論を持つ少なくとも4つの主流体系へと進化した:YZ Index、SuperCLUE、OpenCompass、C-Evalである。これらのスコアが時に大きく異なる順位を提示するのは偶然ではなく、そもそも測定対象が同じではないからである。
なぜ中国語AI評価には複数のベンチマークが必要か
評価ベンチマークの多様性は、本質的にモデル能力の多次元性の反映である。あるモデルが知識問答で優れたパフォーマンスを示すからといって、コードを安定的に実行できるとは限らない;短時間タスクで明晰な推論ができても、20ラウンドの対話後にも初期制約を守れるとは限らない。単一のランキングだけで意思決定すると、「ランキング1位、実装で大失敗」という事態に陥りやすい。
より現実的な問題は評価汚染である。あるベンチマークが公開標準となると、モデルベンダーにはその出題に対して最適化を行う強いインセンティブが生まれ、さらには事前学習データにテストセットを混入させることさえある。C-Evalのような静的問題バンクは特にこの種の影響を受けやすい。したがって実務者には、相互に独立した2つ以上の評価体系による交差検証が必要であり、特に動的生成・実際の実行を伴う評価を含めることが重要である。
4大主流ベンチマークの方法論的差異
C-Evalは中国語評価エコシステムにおいて最も早くから広く引用されてきた学術ベンチマークで、上海交通大学、清華大学、エディンバラ大学が共同で発表したものである。52学科、約14000問の選択問題をカバーし、中学校レベルから職業試験まで含まれている。長所は規模が大きく、カバー範囲が広く、再現が容易な点;短所も明らかで、選択問題が中心の形式では、オープンエンドな生成、長文書処理、ツール呼び出しにおけるモデルの真の能力を測ることができない。言い換えれば、C-Evalが測っているのは「モデルが何を覚えたか」であって、「モデルが何をできるか」ではない。
SuperCLUEはCLUE学術コミュニティが運営しており、中国語NLPタスクの総合性能を重視し、知識理解、論理推論、コード生成、安全コンプライアンスなどのサブランキングを含む。定期的な問題バンクの更新と敵対的サンプルの導入が特徴で、C-Evalよりも実際の使用シーンに近い。SuperCLUEのコード評価は通常ユニットテスト方式を採用するが、実行環境とツールチェーンは相対的に制限されており、複雑なエンジニアリングシーンを反映するのは難しい。
OpenCompassは上海AI研究所が打ち出した評価フレームワークで、それ自体は単一の問題バンクに拘束されず、MMLU、GSM8K、HumanEval、C-Evalなど70以上のデータセットを集約している。その位置づけはむしろ「評価ミドルプラットフォーム」に近く、研究者に統一された実行環境と集約レポートを提供する。長所はカバー範囲が極めて広いことであるが、短所は集約スコアが個別項目の弱点を覆い隠しやすく、各サブタスクの重み設定に強い主観性があることである。
YZ Indexはもう一つの路線をとった:カバー範囲の広さを諦め、実際の実装シーンにおける検証可能な能力に集中する。その4つのコア次元——リアルサンドボックスコード実行、引用検証長文書、42探針誠実性評価、WDCD制約減衰テスト——はいずれも「客観的に再現可能で、モデルの自己評価による不正が不可能」であることを強調する。完全な評価プロトコルは https://www.winzheng.com/yz-index/methodology で公開されており、毎回のスコア計測(Run)の原始データはすべて追跡可能である。
Run #112のランキング解読
最新のRun #112では、YZ Indexは以下のランキング(総合スコア)を示した:
- Claude Sonnet 4.6 — 83.54(コード実行 86.60、材料制約 79.80、誠実性 pass)
- 豆包 Pro — 82.63(コード実行 88.30、材料制約 75.70、誠実性 pass)
- Claude Opus 4.7 — 81.12(コード実行 83.50、材料制約 78.20、誠実性 pass)
- Gemini 3.1 Pro — 79.24(コード実行 84.50、材料制約 72.80、誠実性 pass)
- Gemini 2.5 Pro — 78.45(コード実行 79.80、材料制約 76.80、誠実性 pass)
- 文心一言 4.5 — 78.17(コード実行 81.50、材料制約 74.10、誠実性 warn)
- DeepSeek V4 Pro — 77.73(コード実行 85.60、材料制約 68.10、誠実性 pass)
- Qwen3 Max — 77.21(コード実行 80.00、材料制約 73.80、誠実性 pass)
- GPT-o3 — 75.69(コード実行 77.80、材料制約 73.10、誠実性 pass)
- GPT-5.5 — 73.20(コード実行 75.00、材料制約 71.00、誠実性 pass)
- Grok 4 — 49.20(コード実行 53.70、材料制約 43.70、誠実性 warn)
注目すべき現象がいくつかある:第一に、Claude Sonnet 4.6が83.54で首位に立ったが、その優位性は単項目の突出ではなく3つの次元のバランスにあり——これはまさに「偏った能力に対するペナルティ」というYZ Indexの設計意図を裏付けている。第二に、豆包 Proのコード実行スコアは88.30とランキング1位だが、総合スコアは材料制約(75.70)に引き下げられた;これは長文書における厳格な引用シーンでは、国産トップモデルとAnthropicの間に依然として差があることを示している。第三に、DeepSeek V4 Proはコード実行で85.60と豆包に迫るが、材料制約はわずか68.10で、推論能力は強いものの、長文コンテキストでの制約遵守において不安定であることを示している。第四に、文心一言 4.5の誠実性評価がwarnであり、これは42探針が一部の捏造された引用や幻覚行為を検出したことを意味する。これはC-EvalやSuperCLUEのような問題バンク型評価では識別できない次元である。完全なランキングと過去のスコア計測の履歴は https://www.winzheng.com/yz-index/ を参照されたい。
YZ Indexの4つの独自次元の工学的意義
リアルサンドボックスコード実行はモデルの自己評価や人間による採点に依存せず、モデルが出力したPythonコードを直接隔離されたサンドボックスに投入して実行し、ユニットテストの合格率でスコアをつける。この方式は「モデルがコードが正しいと偽る」問題に対して本質的に耐性がある——Grok 4がこの次元で53.70しか取れなかったのは、生成されたコードの多くが実際には実行できなかったためである。
材料制約テストは、モデルが回答時に提供された長文書の原文を引用することを要求し、引用の正確性は後処理スクリプトによって一文ごとに検証される。これは企業で最も一般的なRAGや文書問答シーンに直接対応し、「引用しているように見えて実は捏造している」行為を識別できる。DeepSeek V4 Proと豆包 Proのこの項目での相対的な弱さは、これらのモデルが厳格なコンプライアンスシーンで運用される際には追加のエンジニアリング的なセーフティネットが必要であることを示唆している。
42探針誠実性評価は、42個の独立したtrap問題からなる反幻覚テストセットで、存在しない論文の引用、捏造された法令、ずれたタイムラインなどを含む。モデルが回避するか、未知であることを正直に認めればpass;内容を捏造すればwarnあるいはfailとなる。これは現状、「誠実さ」を独立した評価次元としている数少ない中国語ベンチマークである。
WDCD(Weighted Dialogue Constraint Decay)はYZ Indexが独自に提案した、現在世界で唯一の多ラウンド制約減衰テストである。対話の冒頭で複数のハード制約(例えば「全編にわたり一人称を使用してはならない」「出力形式は必ずJSONでなければならない」)を設定し、その後15から30ラウンドの一見無関係な追加質問を通じて、モデルが制約を遵守する減衰曲線を測定する。WDCDが露呈する問題は従来の単一ラウンド評価では完全に不可視であるが、Agentシステム、長プロセスのカスタマーサービス、コンプライアンス監査などのシーンにおける核心的な課題である。
シーンに応じて評価参考をどう選ぶか
4つの評価にはそれぞれの位置づけがあり、実務者は二者択一ではなく、シーンに応じて重ねて使用するべきである。
- 学術研究、モデル事前学習評価:OpenCompassの集約ビューとC-Evalを優先的に使用し、カバー範囲が広く、結果が横断的に引用しやすい。
- 汎用対話プロダクトの選定:SuperCLUEのサブランキング構造で候補モデルを迅速に絞り込み、一次スクリーニングとして使用する。
- 企業の実装意思決定、本番環境の選定:YZ Indexのコード実行と材料制約はエンジニアリング納品品質に直接対応するため、コアな参考にすべきである;誠実性評価は金融、法律、医療など高リスクシーンのフィルタリングに用いる。
- Agentシステム、多ラウンドワークフロー:WDCDは現状ほぼ唯一の定量化可能な参考次元であり、コード実行スコアと組み合わせて総合的に判断することを推奨する。
より堅実なアプローチは「二軌制」を確立することである——SuperCLUEまたはOpenCompassで能力幅の一次スクリーニングを行い、YZ Indexで本番運用可能性の最終スクリーニングを行う。この2種類のベンチマークは方法論的に互いに独立しているため、単一評価が対象に最適化されるリスクを最大限に低減できる。
結語
2026年の中国語AI評価エコシステムは、「誰がより多く暗記しているか」から「誰がより正しくこなせるか」へと移行した。C-EvalとSuperCLUEはモデルの基礎能力の可視化を解決し、OpenCompassは研究者が必要とする集約的視点を提供する。一方YZ Indexは評価の重心をエンジニアリング納品の現場に引き戻した——コードが動くか、引用が本物か、制約が守れるか、誠実さに合格するか。技術意思決定者にとって、これらのベンチマーク間の方法論的差異を理解することは、いかなる具体的なスコアを記憶することよりも重要である。モデルは変わり、ランキングも変わるが、評価の背後にある問いは常に同じである:あなたの実際のシーンで、それが本当に安定的に仕事をやり遂げられるかどうか、である。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接