YZ Index

YZ指数 — 誰が変わった、なぜ変わった、今日は誰を使うべきか

Q: 評価頻度と方法は？

毎日早朝に軽量モニタリング、毎週完全評価（154問の問題バンクから100問をランダム抽出）。メインボードランキングは直近5回の完全評価のローリング平均に基づきます。

Q: 誠実性評価とは？

誠実性評価はYZ指数のアクセス閾値メカニズムで、pass（合格）、warn（警告）、fail（不合格）の3段階。42問のプローブ問題でモデルの引用捏造、データ偽造等を検出します。

コード実行検証 · 引用必須チェック · 統計に基づくランキング · 毎週自動レポート

11個の主要モデル — 各社を網羅、新モデル即時追加 154問の専門問題バンク — サンドボックス実行、引用チェック、42問の探知問題 5評価次元 — コード実行 · 材料制約 · エンジニアリング判断 · タスク表現 · 誠実性 + 運用信号毎週自動評価 — 154問から100問抽出、直近5回のローリング平均

メインボードを見る変動を見る方法論を見る

今日の意思決定スナップショット

メインボード1位（5回平均） GPT-o3
コード実行1位 GPT-5.5
材料制約1位 Claude Opus 4.7
今週最大上昇 GLM-4.6 +21.9
今週最大下落 GPT-o3 -12.5
最新完全評価 07-27 05:03 SGT
軽量モニタリング 07-30 03:09 SGT

全時間はSGT（UTC+8）

最新評価：07-27 05:03 SGT · 11モデル · 100問 · ローリング平均軽量モニタリング：07-30 03:09 SGT

技術詳細

Run #249 · 公式 v7 · 判分 v6.4 · 题库 v7

メインボードランキングは直近5回の完全評価のローリング平均に基づきます。

「最新完全評価」は最新のフルスコア結果（154問の問題バンクから100問をランダム抽出）を表示します。

「軽量モニタリング」は短期変動と異常の追跡のみ（各次元3問、計9問）で、メインボードランキングには直接影響しません。

+21.9

#	モデル	コード実行	材料制約	メインスコア	誠実性	推奨
🥇	GPT-o3	82.80	78.60	80.91	✓	推奨
🥈	DeepSeek V4 Pro	79.70	79.50	79.61	✓	推奨
🥉	Claude Opus 4.7	76.20	82.30	78.95	✓	推奨
4	Grok 4	81.40	73.30	77.76	✓	推奨
5	Claude Sonnet 4.6	80.90	73.00	77.35	✓	推奨

メインボード

core_overall: コード実行 + 材料制約の加重

コード実行

アルゴリズム、デバッグ、SQL — サンドボックスで実際に実行

材料制約

長文書理解、引用チェック必須、矛盾検出

エンジニアリング判断

サイドボード、規則精確判分

タスク表現

サイドボード、規則精確判分

誠実性評価

pass/warn/fail のアクセス閾値

コストパフォーマンス

能力 ÷ 価格

YZ指数について

評価モデル

claude、gpt、grok、gemini、DeepSeek、zhipu、qwen、doubaoを網羅

154

問題バンク

コード問題はPythonサンドボックスで実行、材料制約問題は引用チェック必須、42問のカナリアプローブ

5+3

次元体系

コード実行 · 材料制約 · エンジニアリング判断 · タスク表現 · 誠実性 + コスパ · 安定性 · 可用性

毎日

評価頻度

毎日早朝軽量モニタリング、毎週完全評価100問 × 11モデル、直近5回のローリング平均

YZ指数の評価プロセスは3ステップ：出題 → 実行 → 採点。問題バンクは154問、毎回の完全評価でランダムに100問を抽出し、コード実行、材料制約、エンジニアリング判断、タスク表現、誠実性評価の5次元をカバーします。

コード問題はモデルの自己評価に頼りません——すべてのプログラミング問題は隔離されたPythonサンドボックスで実際に実行され、ユニットテストで出力を検証します。長文問題は引用チェックを強制——モデルは提供された材料の原文を引用する必要があり、でたらめな内容は直接減点されます。さらに、問題バンクには42問のカナリアプローブが組み込まれ、モデルの過学習を検出します。

ランキングは単一回の成績を見ません。メインボードは直近5回の完全評価のローリング平均に基づき、ランダムな変動の影響を軽減します。毎日早朝の軽量モニタリングはモデルの短期異常を追跡しますが、メインボードランキングには影響しません。

Winzhengは1998年に設立された中国語インターネット初期の技術コミュニティの一つです。2025年にAI評価・研究プラットフォームに転身し、28年間の技術コミュニティ運営経験をAIモデルの独立評価に応用しています。

YZ指数は3つの原則を堅持：モデルメーカーからのスポンサーを受けないことで評価の独立性を確保、方法論を完全に公開し誰でも評価プロセスと採点式を審査可能、原始データをダウンロード可能にし研究者が独自の方法で再分析できます。すべての評価コードは自動実行され、人為的な採点介入はありません。

YZ指数と他のAIランキングとの違いは？

3つの核心的な違い：1）コード問題はPythonサンドボックスで実際に実行し、モデルの自己評価に頼りません。2）長文問題は引用チェックを強制し、ハルシネーションは直接減点。3）ランキングは複数回のローリング平均に基づき、単一回のスナップショットではないため、ランダムな変動を削減します。さらに42問のカナリアプローブで過学習を防止します。

評価対象のモデルは？

11個の主要モデルを網羅。Claude（Anthropic）、GPT（OpenAI）、DeepSeek、Gemini（Google）、Grok（xAI）、通義千問（Alibaba）などを含みます。新モデルのリリース後、通常1週間以内に追加されます。

評価頻度と方法は？

毎日早朝に軽量モニタリング（各次元から少数の問題を抽出して変動を追跡）、毎週完全評価（154問の問題バンクから100問をランダム抽出）。メインボードランキングは直近5回の完全評価のローリング平均に基づき、安定的で信頼できるランキングを保証します。

誠実性評価とは？

誠実性評価はYZ指数のアクセス閾値メカニズムで、pass（合格）、warn（警告）、fail（不合格）の3段階です。42問のプローブ問題でモデルの引用捏造、データ偽造、出典偽装等を検出します。誠実性が不合格のモデルはスコアがどんなに高くても警告マークが付きます。

YZ指数を使ってAIモデルを選ぶには？

使用シーンに応じた次元を参照：コーディングなら「コード実行」ランキング、リサーチなら「材料制約」ランキング、総合使用なら「メインボード」。「推奨」列（推奨/中立/非推奨）と「コスパ」次元も参考に。「今週の変動」で近期のトレンドを確認し、下降中のモデルの選択を避けましょう。

YZ指数 — 誰が変わった、なぜ変わった、今日は誰を使うべきか

今週のハイライト

GLM-4.6：コード実行 +21.9

GPT-o3：タスク表現 -12.5

Claude Opus 4.7：コード実行 -9.8

メインボードランキング

ランキングを探索