YZ Index

直近2回の評価比較

同日2回の評価比較 · 週間変動ではありません

基準: Run #78 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-20 04:15 SGT 最新: Run #87 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-27 04:18 SGT

メイン変動 総合力 core_overall

Claude Sonnet 4.6 +7.3
76.8 → 84.1
Claude Opus 4.6 +3.9
79.6 → 83.4
GPT-o3 +3.7
58.9 → 62.5
Gemini 2.5 Pro +3.5
80.9 → 84.3
GPT-4o +2.4
62.9 → 65.4
豆包 Pro +1.4
85.1 → 86.4
DeepSeek R1 -5.6
81.4 → 75.9
文心一言 4.0 -3.0
77.9 → 74.9
2 モデルは安定
DeepSeek V3 (80.8) Qwen Max (77.9)

サイドランキング変動 エンジニアリング判断 / タスク表現

Gemini 2.5 Pro +5.7
エンジニアリング判断: 41.5 → 47.2
DeepSeek V3 +2.8
エンジニアリング判断: 41.5 → 44.3
GPT-4o +2.5
エンジニアリング判断: 39.0 → 41.5
Claude Opus 4.6 -10.0
タスク表現: 50.0 → 40.0
Claude Sonnet 4.6 -5.0
タスク表現: 45.0 → 40.0
DeepSeek R1 -5.0
タスク表現: 45.0 → 40.0
DeepSeek V3 -5.0
タスク表現: 45.0 → 40.0
豆包 Pro -5.0
タスク表現: 45.0 → 40.0
Gemini 2.5 Pro -5.0
タスク表現: 45.0 → 40.0
DeepSeek R1 -2.8
エンジニアリング判断: 41.5 → 38.7
Claude Sonnet 4.6 -2.5
エンジニアリング判断: 46.3 → 43.8
Qwen Max -0.8
エンジニアリング判断: 41.5 → 40.7
文心一言 4.0 -0.6
エンジニアリング判断: 40.3 → 39.7

誠実性評価変動 integrity_label 変遷

DeepSeek R1 誠実性警告
✔ pass⚠ warn
DeepSeek V3 誠実性警告
✔ pass⚠ warn

運用信号変動 安定性 / 可用性 / コストパフォーマンス

GPT-o3 +1.3
可用性: 85.7 → 87.0
GPT-4o +1.2
可用性: 89.8 → 91.0
豆包 Pro +1.0
可用性: 99.0 → 100.0
Claude Sonnet 4.6 +0.9
コストパフォーマンス: 24.2 → 25.1
GPT-o3 -5.5
安定性: 34.4 → 28.9
Claude Opus 4.6 -4.3
安定性: 39.5 → 35.2
DeepSeek R1 -4.1
安定性: 34.3 → 30.2
DeepSeek R1 -3.1
コストパフォーマンス: 93.4 → 90.3
DeepSeek V3 -2.9
安定性: 35.7 → 32.8
Claude Sonnet 4.6 -2.8
安定性: 38.5 → 35.7
GPT-4o -2.5
安定性: 32.9 → 30.4
Qwen Max -2.3
コストパフォーマンス: 50.9 → 48.6
豆包 Pro -1.7
安定性: 40.5 → 38.8
Claude Sonnet 4.6 -1.0
可用性: 100.0 → 99.0
Qwen Max -0.8
安定性: 33.5 → 32.7
豆包 Pro -0.7
コストパフォーマンス: 94.0 → 93.3
文心一言 4.0 -0.4
コストパフォーマンス: 99.0 → 98.6

旧バージョンの次元変動を表示(v5 後方互換データ)
8 上昇
3 下降
0 安定

今週上昇

今週下降