YZ Index
直近2回の評価比較
同日2回の評価比較 · 週間変動ではありません
基準: Run #78 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-20 04:15 SGT
最新: Run #87 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-27 04:18 SGT
メイン変動 総合力 core_overall
Claude Sonnet 4.6
+7.3
76.8 → 84.1
Claude Opus 4.6
+3.9
79.6 → 83.4
GPT-o3
+3.7
58.9 → 62.5
Gemini 2.5 Pro
+3.5
80.9 → 84.3
GPT-4o
+2.4
62.9 → 65.4
豆包 Pro
+1.4
85.1 → 86.4
DeepSeek R1
-5.6
81.4 → 75.9
文心一言 4.0
-3.0
77.9 → 74.9
2 モデルは安定
DeepSeek V3 (80.8)
Qwen Max (77.9)
サイドランキング変動 エンジニアリング判断 / タスク表現
Gemini 2.5 Pro
+5.7
エンジニアリング判断: 41.5 → 47.2
DeepSeek V3
+2.8
エンジニアリング判断: 41.5 → 44.3
GPT-4o
+2.5
エンジニアリング判断: 39.0 → 41.5
Claude Opus 4.6
-10.0
タスク表現: 50.0 → 40.0
Claude Sonnet 4.6
-5.0
タスク表現: 45.0 → 40.0
DeepSeek R1
-5.0
タスク表現: 45.0 → 40.0
DeepSeek V3
-5.0
タスク表現: 45.0 → 40.0
豆包 Pro
-5.0
タスク表現: 45.0 → 40.0
Gemini 2.5 Pro
-5.0
タスク表現: 45.0 → 40.0
DeepSeek R1
-2.8
エンジニアリング判断: 41.5 → 38.7
Claude Sonnet 4.6
-2.5
エンジニアリング判断: 46.3 → 43.8
Qwen Max
-0.8
エンジニアリング判断: 41.5 → 40.7
文心一言 4.0
-0.6
エンジニアリング判断: 40.3 → 39.7
誠実性評価変動 integrity_label 変遷
DeepSeek R1
誠実性警告
✔ pass →
⚠ warn
DeepSeek V3
誠実性警告
✔ pass →
⚠ warn
運用信号変動 安定性 / 可用性 / コストパフォーマンス
GPT-o3
+1.3
可用性: 85.7 → 87.0
GPT-4o
+1.2
可用性: 89.8 → 91.0
豆包 Pro
+1.0
可用性: 99.0 → 100.0
Claude Sonnet 4.6
+0.9
コストパフォーマンス: 24.2 → 25.1
GPT-o3
-5.5
安定性: 34.4 → 28.9
Claude Opus 4.6
-4.3
安定性: 39.5 → 35.2
DeepSeek R1
-4.1
安定性: 34.3 → 30.2
DeepSeek R1
-3.1
コストパフォーマンス: 93.4 → 90.3
DeepSeek V3
-2.9
安定性: 35.7 → 32.8
Claude Sonnet 4.6
-2.8
安定性: 38.5 → 35.7
GPT-4o
-2.5
安定性: 32.9 → 30.4
Qwen Max
-2.3
コストパフォーマンス: 50.9 → 48.6
豆包 Pro
-1.7
安定性: 40.5 → 38.8
Claude Sonnet 4.6
-1.0
可用性: 100.0 → 99.0
Qwen Max
-0.8
安定性: 33.5 → 32.7
豆包 Pro
-0.7
コストパフォーマンス: 94.0 → 93.3
文心一言 4.0
-0.4
コストパフォーマンス: 99.0 → 98.6
旧バージョンの次元変動を表示(v5 後方互換データ)
10
上昇
1
下降
0
安定
今週上昇
DeepSeek R1
+47.4
DeepSeek R1:编程能力 +47.4
DeepSeek V3
+42.6
DeepSeek V3:编程能力 +42.6
豆包 Pro
+42.4
豆包 Pro:编程能力 +42.4
Grok 3
+42.4
Grok 3:编程能力 +42.4
Claude Opus 4.6
+42
Claude Opus 4.6:编程能力 +42
文心一言 4.0
+41.4
文心一言 4.0:编程能力 +41.4
Qwen Max
+38.6
Qwen Max:编程能力 +38.6
Claude Sonnet 4.6
+38.3
Claude Sonnet 4.6:编程能力 +38.3
Gemini 2.5 Pro
+33.8
Gemini 2.5 Pro:编程能力 +33.8
GPT-4o
+29.2
GPT-4o:编程能力 +29.2