YZ指数 — 誰が変わった、なぜ変わった、今日は誰を使うべきか
コード実行検証 · 引用必須チェック · 統計に基づくランキング · 毎週自動レポート
- メインボード1位(5回平均) Grok 3
- コード実行1位 豆包 Pro
- 材料制約1位 Grok 3
- 今週最大上昇 文心一言 4.0 +15
- 最新完全評価 04-27 04:18 SGT
- 軽量モニタリング 04-27 03:01 SGT
技術詳細
Run #87 · 公式 v7 · 判分 v6 · 题库 v6
メインボードランキングは直近5回の完全評価のローリング平均に基づきます。
「最新完全評価」は最新のフルスコア結果(212問の問題バンクから100問をランダム抽出)を表示します。
「軽量モニタリング」は短期変動と異常の追跡のみ(各次元3問、計9問)で、メインボードランキングには直接影響しません。
今週のハイライト
2026年 第18週メインボードランキング
完全ランキングを見る| # | モデル | コード実行 | 材料制約 | メインスコア | 誠実性 | 推奨 |
|---|---|---|---|---|---|---|
| 🥇 | Grok 3 | 88.90 | 84.40 | ✓ | 推奨 | |
| 🥈 | 豆包 Pro | 92.20 | 79.40 | ✓ | 推奨 | |
| 🥉 | Gemini 2.5 Pro | 89.40 | 78.10 | ✓ | 推奨 | |
| 4 | Claude Sonnet 4.6 | 86.50 | 81.10 | ✓ | 推奨 | |
| 5 | Claude Opus 4.6 | 86.50 | 79.70 | ✓ | 推奨 |
ランキングを探索
YZ指数について
評価方法
完全な方法論を見るYZ指数の評価プロセスは3ステップ:出題 → 実行 → 採点。問題バンクは212問、毎回の完全評価でランダムに100問を抽出し、コード実行、材料制約、エンジニアリング判断、タスク表現、誠実性評価の5次元をカバーします。
コード問題はモデルの自己評価に頼りません——すべてのプログラミング問題は隔離されたPythonサンドボックスで実際に実行され、ユニットテストで出力を検証します。長文問題は引用チェックを強制——モデルは提供された材料の原文を引用する必要があり、でたらめな内容は直接減点されます。さらに、問題バンクには42問のカナリアプローブが組み込まれ、モデルの過学習を検出します。
ランキングは単一回の成績を見ません。メインボードは直近5回の完全評価のローリング平均に基づき、ランダムな変動の影響を軽減します。毎日早朝の軽量モニタリングはモデルの短期異常を追跡しますが、メインボードランキングには影響しません。
なぜ信頼できるか
Winzhengは1998年に設立された中国語インターネット初期の技術コミュニティの一つです。2025年にAI評価・研究プラットフォームに転身し、28年間の技術コミュニティ運営経験をAIモデルの独立評価に応用しています。
YZ指数は3つの原則を堅持:モデルメーカーからのスポンサーを受けないことで評価の独立性を確保、方法論を完全に公開し誰でも評価プロセスと採点式を審査可能、原始データをダウンロード可能にし研究者が独自の方法で再分析できます。すべての評価コードは自動実行され、人為的な採点介入はありません。
よくある質問
YZ指数と他のAIランキングとの違いは?
3つの核心的な違い:1)コード問題はPythonサンドボックスで実際に実行し、モデルの自己評価に頼りません。2)長文問題は引用チェックを強制し、ハルシネーションは直接減点。3)ランキングは複数回のローリング平均に基づき、単一回のスナップショットではないため、ランダムな変動を削減します。さらに42問のカナリアプローブで過学習を防止します。
評価対象のモデルは?
11個の主要モデルを網羅。Claude(Anthropic)、GPT(OpenAI)、DeepSeek、Gemini(Google)、Grok(xAI)、通義千問(Alibaba)などを含みます。新モデルのリリース後、通常1週間以内に追加されます。
評価頻度と方法は?
毎日早朝に軽量モニタリング(各次元から少数の問題を抽出して変動を追跡)、毎週完全評価(212問の問題バンクから100問をランダム抽出)。メインボードランキングは直近5回の完全評価のローリング平均に基づき、安定的で信頼できるランキングを保証します。
誠実性評価とは?
誠実性評価はYZ指数のアクセス閾値メカニズムで、pass(合格)、warn(警告)、fail(不合格)の3段階です。42問のプローブ問題でモデルの引用捏造、データ偽造、出典偽装等を検出します。誠実性が不合格のモデルはスコアがどんなに高くても警告マークが付きます。
YZ指数を使ってAIモデルを選ぶには?
使用シーンに応じた次元を参照:コーディングなら「コード実行」ランキング、リサーチなら「材料制約」ランキング、総合使用なら「メインボード」。「推奨」列(推奨/中立/非推奨)と「コスパ」次元も参考に。「今週の変動」で近期のトレンドを確認し、下降中のモデルの選択を避けましょう。