YZ Index

直近2回の評価比較

同日2回の評価比較 · 週間変動ではありません

2026年第18週 2026年第17週 2026年第16週 2026年第15週 2026年第14週 2026年第12週 2026-03-24-同日比較

基準: Run #78 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-20 04:15 SGT 最新: Run #87 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-27 04:18 SGT

メイン変動総合力 core_overall

Claude Sonnet 4.6 +7.3

76.8 → 84.1

Claude Opus 4.6 +3.9

79.6 → 83.4

GPT-o3 +3.7

58.9 → 62.5

Gemini 2.5 Pro +3.5

80.9 → 84.3

GPT-4o +2.4

62.9 → 65.4

豆包 Pro +1.4

85.1 → 86.4

DeepSeek R1 -5.6

81.4 → 75.9

文心一言 4.0 -3.0

77.9 → 74.9

2 モデルは安定

DeepSeek V3 (80.8) Qwen Max (77.9)

サイドランキング変動エンジニアリング判断 / タスク表現

Gemini 2.5 Pro +5.7

エンジニアリング判断: 41.5 → 47.2

DeepSeek V3 +2.8

エンジニアリング判断: 41.5 → 44.3

GPT-4o +2.5

エンジニアリング判断: 39.0 → 41.5

Claude Opus 4.6 -10.0

タスク表現: 50.0 → 40.0

Claude Sonnet 4.6 -5.0

タスク表現: 45.0 → 40.0

DeepSeek R1 -5.0

タスク表現: 45.0 → 40.0

DeepSeek V3 -5.0

タスク表現: 45.0 → 40.0

豆包 Pro -5.0

タスク表現: 45.0 → 40.0

Gemini 2.5 Pro -5.0

タスク表現: 45.0 → 40.0

DeepSeek R1 -2.8

エンジニアリング判断: 41.5 → 38.7

Claude Sonnet 4.6 -2.5

エンジニアリング判断: 46.3 → 43.8

Qwen Max -0.8

エンジニアリング判断: 41.5 → 40.7

文心一言 4.0 -0.6

エンジニアリング判断: 40.3 → 39.7

誠実性評価変動 integrity_label 変遷

DeepSeek R1 誠実性警告

✔ pass → ⚠ warn

DeepSeek V3 誠実性警告

✔ pass → ⚠ warn

運用信号変動安定性 / 可用性 / コストパフォーマンス

GPT-o3 +1.3

可用性: 85.7 → 87.0

GPT-4o +1.2

可用性: 89.8 → 91.0

豆包 Pro +1.0

可用性: 99.0 → 100.0

Claude Sonnet 4.6 +0.9

コストパフォーマンス: 24.2 → 25.1

GPT-o3 -5.5

安定性: 34.4 → 28.9

Claude Opus 4.6 -4.3

安定性: 39.5 → 35.2

DeepSeek R1 -4.1

安定性: 34.3 → 30.2

DeepSeek R1 -3.1

コストパフォーマンス: 93.4 → 90.3

DeepSeek V3 -2.9

安定性: 35.7 → 32.8

Claude Sonnet 4.6 -2.8

安定性: 38.5 → 35.7

GPT-4o -2.5

安定性: 32.9 → 30.4

Qwen Max -2.3

コストパフォーマンス: 50.9 → 48.6

豆包 Pro -1.7

安定性: 40.5 → 38.8

Claude Sonnet 4.6 -1.0

可用性: 100.0 → 99.0

Qwen Max -0.8

安定性: 33.5 → 32.7

豆包 Pro -0.7

コストパフォーマンス: 94.0 → 93.3

文心一言 4.0 -0.4

コストパフォーマンス: 99.0 → 98.6

旧バージョンの次元変動を表示（v5 後方互換データ）

8 上昇

3 下降

0 安定

今週上昇

文心一言 4.0 +6.8

文心一言 4.0：execution_raw +6.8

GPT-o3 +6.3

GPT-o3：grounding_raw +6.3

Claude Sonnet 4.6 +5

Claude Sonnet 4.6：communication_raw +5

DeepSeek V3 +5

DeepSeek V3：communication_raw +5

豆包 Pro +5

豆包 Pro：communication_raw +5

Gemini 2.5 Pro +5

Gemini 2.5 Pro：communication_raw +5

Qwen Max +5

Qwen Max：communication_raw +5

DeepSeek R1 +3.8

DeepSeek R1：execution_raw +3.8

今週下降

GPT-4o -10.3

GPT-4o：grounding_raw -10.3

Grok 3 -10.2

Grok 3：judgment_raw -10.2

Claude Opus 4.6 -6

Claude Opus 4.6：judgment_raw -6

直近2回の評価比較

メイン変動 総合力 core_overall

サイドランキング変動 エンジニアリング判断 / タスク表現

誠実性評価変動 integrity_label 変遷

運用信号変動 安定性 / 可用性 / コストパフォーマンス

今週上昇

今週下降

メイン変動総合力 core_overall

サイドランキング変動エンジニアリング判断 / タスク表現

運用信号変動安定性 / 可用性 / コストパフォーマンス