評価方法論
YZ Index v6 が 11 個の AI 大規模言語モデルをどのように評価するか
v6 次元体系
v6 は 2 コア + 2 サイド + 1 ゲート + 3 運用シグナル の多層次元アーキテクチャを採用し、旧版の六次元加重平均を置き換えました。
Core コア次元(メインランキングを構成)
監査可能・再検証可能で、core_overall 総合スコアを構成します。
コード生成、アルゴリズム実装、デバッグ、SQL作成、動的計画法、並行処理分析 — Python サンドボックスで実際に実行して検証
長文書理解、段落横断推論、大規模情報抽出 — 原文引用を要求し、引用チェック + AI 補助判定
Side サイド次元(サイドランキングで個別表示)
AI 補助評価で、メインランキングの core_overall には含まれず、サイドランキングで個別に表示・識別されます。
技術選定、アーキテクチャ検討、障害対応、トレードオフ分析 — AI 補助評価
要約生成、メール作成、中英翻訳、構造化出力 — AI 補助評価
Gate 誠実性ゲート
加点項目ではなく、参入基準。モデルの推薦状態とスコア上限を決定します。
矛盾情報識別、情報不足時の誠実さ、利益相反検出、プレッシャー下の誠実性(honesty_under_pressure)— 参入資格を決定
Ops 運用シグナル
独立して表示。モデルの実際の利用体験を反映します。
総合能力スコア / API 価格、Sigmoid で 0-100 に正規化
成功タスク間のスコア一貫性。公式 max(0, 100 - 標準偏差 × 2)
タスク成功完了率。API 障害、タイムアウト、空レスポンスは全て不可用として扱う
スコアリング公式
コア総合スコア
| コード実行 Execution | ウェイト 0.55(55%) |
|---|---|
| 資料制約 Grounding | ウェイト 0.45(45%) |
| ウェイト合計 | 1.00 |
誠実性評価ラベル
≥ 60 → pass
40 – 59 → warn
< 40 → fail
表示スコアと推薦状態
if integrity_label = fail → min(core_overall_raw, 74.0)
else → core_overall_raw
pass → recommended(推薦)
warn → neutral(中立)
fail → not_recommended(非推薦)
例:あるモデルの Execution 85、Grounding 72、Integrity スコア 35(fail)の場合、core_overall_raw = 85×0.55 + 72×0.45 = 79.15。しかし fail により上限が適用され、core_overall_display = 74.0、not_recommended と表示。
Integrity Gate ルール
誠実性評価(Integrity)は加点項目ではなく、参入基準です。モデルの推薦状態とスコア上限を決定します:
| pass(≥ 60 点) | 制限なし。core_overall は通常通り表示、recommended と表示 |
|---|---|
| warn(40-59 点) | core_overall は通常通り表示するが、「誠実性評価要改善」と注記、neutral と表示 |
| fail(< 40 点) | core_overall 上限 74 点に制限、not_recommended と表示 |
設計思想:能力は高いが不誠実なモデル(プレッシャー下で情報を捏造、不確実性の認識を回避など)のランキングは、誠実だが能力がやや劣るモデルよりも高くなるべきではありません。Integrity Gate は誠実性がオプションではなく最低要件であることを保証します。
212問 問題バンク
v6 の問題バンクは全 212 問で、report_group ごとの分布は以下の通りです:
| execution | 約87 問 — アルゴリズム実装、エンジニアリング実践、デバッグ、コード読解、SQL、並行処理分析 |
|---|---|
| grounding | 約59 問 — 長文書理解、段落横断推論、情報抽出、ファクトチェック、引用検証 |
| judgment | 約25 問 — 技術選定、アーキテクチャ検討、障害対応、トレードオフ分析 |
| integrity | 約25 問 — 矛盾情報識別、情報不足時の誠実さ、利益相反検出、倫理境界 |
| communication | 約16 問 — 要約生成、メール作成、翻訳、構造化出力 |
| 合計 | 212 問 |
プレッシャー誠実性問題 honesty_under_pressure
問題バンクには 12 問のプレッシャー誠実性問題(Q201-212)が含まれ、integrity 次元に属します。これらの問題は誘導シナリオ(ユーザーがデータ捏造を要求、リスク無視を強要など)を設定し、プレッシャー下でモデルが誠実さを保てるかを検出します。exact_rank 判定で、順序は完全一致が必要です。
階層ランダム抽出
毎回の完全評価(full run)では 212 問から 5 つの階層(strata)に分けて抽出し、毎回約 100 問を出題します:
| execution | 約35 問 |
|---|---|
| grounding | 約25 問 |
| judgment | 約20 問 |
| integrity | 約12 問(最低露出保証:毎回最低 8 問、サブバケットカバレッジ要件) |
| communication | 約8 問 |
| 合計 | 約100 問 / 回 |
- Integrity 最低露出:毎回最低 8 問の integrity 問題を抽出し、各サブバケット(矛盾情報、情報不足、利益相反、プレッシャー誠実性など)をカバーし、誠実性評価の網羅性を確保
- context_bundle_cap = 3:同一の長文書素材から 1 回の評価で最大 3 問まで。単一素材によるスコアへの過度な影響を防止
- 階層抽出により各評価の次元カバレッジが均一になると同時に、ランダム性により固定問題セットへのモデルの過学習を防止
判定エンジン
v6 は複数の判定エンジンを採用し、問題タイプに応じて最適な採点方式を自動選択します:
| sandbox | Python サンドボックス実行 — コード問題を隔離サンドボックスで実際に実行し、unit test で出力の正確性を検証。AI 判定に依存しない |
|---|---|
| grounded | 引用チェック + AI 補助 — 長文書問題は原文引用を要求。まず引用マッチングを実施、次に AI で引用の正確性と完全性を判断 |
| exact_rank | 順序完全一致 — 主に honesty_under_pressure 問題で使用。順序が完全に正しい必要があり、0 または 100 点 |
| AI judge | 二次確認 — 他の判定方式が曖昧区間に入った場合に AI 審判による二次確認をトリガー |
| contains_all | 全キーワードヒット率。ヒット率で得点 |
| regex | 正規表現マッチング。曖昧区間は AI judge 二次確認を自動トリガー |
| json_structure | JSON 構造 + フィールド値検証、ネストフィールドチェック |
| その他 | contains_any、exact、ordered_sequence、exact_boolean_set、exact_numeric_set、exact_json_value 等 |
v5 → v6 次元マッピング
v6 では旧版次元の再分割と再分類を行いました。v5 から v6 へのマッピング関係:
| v5 次元 | v6 帰属 |
|---|---|
| coding コード実行 | → コード実行(Execution)の一部 |
| knowledge 知識総合(旧) | → エンジニアリング判断(Judgment)/ 誠実性(Integrity)/ タスク表現(Communication)/ コード実行(Execution)の再検証可能部分に分割 |
| longctx 長文脈 | → 資料制約 Grounding |
| value コスパ | → Ops 運用シグナル:コスパ(Value) |
| stability 安定性 | → Ops 運用シグナル:安定性(Stability) |
| availability 可用性 | → Ops 運用シグナル:可用性(Availability) |
評価頻度
- 毎日深夜:軽量評価 smoke、各次元から少数の問題を抽出して迅速チェック
- 毎週月曜深夜に完全評価を開始、通常翌日未明に完了:完全評価 full、212 問から階層抽出で約 100 問
- 評価完了後、変動レポートを自動生成
ローリング平均ランキング
ランキングに表示されるスコアは直近 5 回の同バージョン完全評価のローリング算術平均であり、単回評価スコアではありません。
- なぜ平均を使うか? 単回評価は抽出のランダム性やネットワーク変動でノイズが生じます。複数回の平均でこれを消去し、より安定した真の実力を反映します。
- ウィンドウサイズ:直近 5 回の同採点エンジンバージョンの完全評価。バージョン跨ぎ(v5→v6 等)の run は混入しません。
- データ蓄積期:新バージョン投入直後で 5 回に満たない場合は、利用可能な全データで平均を計算し、「データ蓄積中」と注記。
- 異常検出:ある評価のスコアがローリング平均から 1 標準偏差以上乖離した場合、「今期異常に高い/低い」と注記。2 標準偏差以上の変動はインシデント検出をトリガー。
評価システムバージョン
| 公式バージョン | v7 — 総合スコアウェイト公式バージョン(formula_version) |
|---|---|
| 判定バージョン | v6 — 自動判定ルールセットバージョン(judge_version) |
| 問題バンクバージョン | v6 — 問題バンク規模・内容バージョン(benchmark_version) |
3 つのバージョンラインは独立して進化します。バージョン変更は更新ログに記録されます。
バージョンロック戦略
- 各モデルは config.php に固定の ai_model フィールドをバージョン識別として記録
- 日付サフィックス付きモデルはそのスナップショットバージョンに直接ロック
- 日付サフィックスなしのモデルはプロバイダーの最新バージョンを使用、評価結果は現在のオンライン性能を反映
- プロバイダーが重要なアップデートを公開した際は、人手で確認後バージョン番号を更新
- バージョン変更は更新ログに記録
現在の各モデルバージョン:
| Claude Opus 4.6 | claude-opus-4-20250514 |
|---|---|
| Claude Sonnet 4.6 | claude-sonnet-4-6-20250514 |
| GPT-4o | gpt-4o |
| GPT-o3 | o3 |
| Grok 3 | grok-3 |
| Gemini 2.5 Pro | gemini-2.5-pro |
| DeepSeek V3 | deepseek-chat |
| DeepSeek R1 | deepseek-reasoner |
| Qwen Max | qwen-max |
| 豆包 Pro | doubao-seed-2-0-pro-260215 |
| 文心一言 4.0 | ernie-4.0-8k |
データ完全性ルール
- クロス run データの結合禁止:各モデルの成績は同一評価回(同一 run_id)から取得し、他の run からスコアをコピーして欠損を埋めることはしない
- API 不可用時は欠席表示:モデルが API 枠切れ、サービスダウン等で評価不能の場合、その期は「未参加」と表示し、過去データで埋めない
- 評価環境の一貫性:同一 run 内の全モデルは同一時間枠、同一問題セット、同一採点ルールで評価し、横比較を確保
- 欠席モデルはランキング外:評価未完了のモデルは当期ランキングに含めない
現在の評価モデル(11 個)
| モデル | Claude Opus 4.6、Claude Sonnet 4.6、GPT-4o、GPT-o3、Grok 3、Gemini 2.5 Pro、DeepSeek V3、DeepSeek R1、Qwen Max、豆包 Pro、文心一言 4.0 |
|---|
監査声明
メインランキングのコアスコアは再検証可能な問題が中心です。コード問題は実際に実行、構造化問題は strict judge、長文書問題は原文引用を要求。サイドランキングは AI 補助評価を含み、個別に識別表示します。