YZ Index

YZ指数 — 誰が変わった、なぜ変わった、今日は誰を使うべきか

コード実行検証 · 引用必須チェック · 統計に基づくランキング · 毎週自動レポート

11個の主要モデル — 各社を網羅、新モデル即時追加 212問の専門問題バンク — サンドボックス実行、引用チェック、42問の探知問題 5評価次元 — コード実行 · 材料制約 · エンジニアリング判断 · タスク表現 · 誠実性 + 運用信号 毎週自動評価 — 212問から100問抽出、直近5回のローリング平均
今日の意思決定スナップショット
  • メインボード1位(5回平均) Grok 3
  • コード実行1位 豆包 Pro
  • 材料制約1位 Grok 3
  • 今週最大上昇 文心一言 4.0 +15
  • 最新完全評価 04-27 04:18 SGT
  • 軽量モニタリング 04-27 03:01 SGT
全時間はSGT(UTC+8)
最新評価:04-27 04:18 SGT · 11モデル · 100問 · ローリング平均 軽量モニタリング:04-27 03:01 SGT
技術詳細

Run #87 · 公式 v7 · 判分 v6 · 题库 v6

メインボードランキングは直近5回の完全評価のローリング平均に基づきます。

「最新完全評価」は最新のフルスコア結果(212問の問題バンクから100問をランダム抽出)を表示します。

「軽量モニタリング」は短期変動と異常の追跡のみ(各次元3問、計9問)で、メインボードランキングには直接影響しません。

今週のハイライト

2026年 第18週

メインボードランキング

完全ランキングを見る
# モデル コード実行 材料制約 メインスコア 誠実性 推奨
🥇 Grok 3 88.90 84.40
86.88
推奨
🥈 豆包 Pro 92.20 79.40
86.44
推奨
🥉 Gemini 2.5 Pro 89.40 78.10
84.32
推奨
4 Claude Sonnet 4.6 86.50 81.10
84.07
推奨
5 Claude Opus 4.6 86.50 79.70
83.44
推奨

ランキングを探索

メインボード

core_overall: コード実行 + 材料制約の加重

コード実行

アルゴリズム、デバッグ、SQL — サンドボックスで実際に実行

材料制約

長文書理解、引用チェック必須、矛盾検出

エンジニアリング判断

サイドボード、AI補助評価

タスク表現

サイドボード、AI補助評価

誠実性評価

pass/warn/fail のアクセス閾値

コストパフォーマンス

能力 ÷ 価格

YZ指数について

11
評価モデル
claude、gpt、grok、gemini、DeepSeek、qwen、doubao、ernieを網羅
212
問題バンク
コード問題はPythonサンドボックスで実行、材料制約問題は引用チェック必須、42問のカナリアプローブ
5+3
次元体系
コード実行 · 材料制約 · エンジニアリング判断 · タスク表現 · 誠実性 + コスパ · 安定性 · 可用性
毎日
評価頻度
毎日早朝軽量モニタリング、毎週完全評価100問 × 11モデル、直近5回のローリング平均

YZ指数の評価プロセスは3ステップ:出題 → 実行 → 採点。問題バンクは212問、毎回の完全評価でランダムに100問を抽出し、コード実行、材料制約、エンジニアリング判断、タスク表現、誠実性評価の5次元をカバーします。

コード問題はモデルの自己評価に頼りません——すべてのプログラミング問題は隔離されたPythonサンドボックスで実際に実行され、ユニットテストで出力を検証します。長文問題は引用チェックを強制——モデルは提供された材料の原文を引用する必要があり、でたらめな内容は直接減点されます。さらに、問題バンクには42問のカナリアプローブが組み込まれ、モデルの過学習を検出します。

ランキングは単一回の成績を見ません。メインボードは直近5回の完全評価のローリング平均に基づき、ランダムな変動の影響を軽減します。毎日早朝の軽量モニタリングはモデルの短期異常を追跡しますが、メインボードランキングには影響しません。

なぜ信頼できるか

Winzhengは1998年に設立された中国語インターネット初期の技術コミュニティの一つです。2025年にAI評価・研究プラットフォームに転身し、28年間の技術コミュニティ運営経験をAIモデルの独立評価に応用しています。

YZ指数は3つの原則を堅持:モデルメーカーからのスポンサーを受けないことで評価の独立性を確保、方法論を完全に公開し誰でも評価プロセスと採点式を審査可能、原始データをダウンロード可能にし研究者が独自の方法で再分析できます。すべての評価コードは自動実行され、人為的な採点介入はありません。

よくある質問

YZ指数と他のAIランキングとの違いは?

3つの核心的な違い:1)コード問題はPythonサンドボックスで実際に実行し、モデルの自己評価に頼りません。2)長文問題は引用チェックを強制し、ハルシネーションは直接減点。3)ランキングは複数回のローリング平均に基づき、単一回のスナップショットではないため、ランダムな変動を削減します。さらに42問のカナリアプローブで過学習を防止します。

評価対象のモデルは?

11個の主要モデルを網羅。Claude(Anthropic)、GPT(OpenAI)、DeepSeek、Gemini(Google)、Grok(xAI)、通義千問(Alibaba)などを含みます。新モデルのリリース後、通常1週間以内に追加されます。

評価頻度と方法は?

毎日早朝に軽量モニタリング(各次元から少数の問題を抽出して変動を追跡)、毎週完全評価(212問の問題バンクから100問をランダム抽出)。メインボードランキングは直近5回の完全評価のローリング平均に基づき、安定的で信頼できるランキングを保証します。

誠実性評価とは?

誠実性評価はYZ指数のアクセス閾値メカニズムで、pass(合格)、warn(警告)、fail(不合格)の3段階です。42問のプローブ問題でモデルの引用捏造、データ偽造、出典偽装等を検出します。誠実性が不合格のモデルはスコアがどんなに高くても警告マークが付きます。

YZ指数を使ってAIモデルを選ぶには?

使用シーンに応じた次元を参照:コーディングなら「コード実行」ランキング、リサーチなら「材料制約」ランキング、総合使用なら「メインボード」。「推奨」列(推奨/中立/非推奨)と「コスパ」次元も参考に。「今週の変動」で近期のトレンドを確認し、下降中のモデルの選択を避けましょう。

すべての時間はシンガポール時間(SGT, UTC+8)です