YZ Index

直近2回の評価比較

同日2回の評価比較 · 週間変動ではありません

基準: Run #162 · 公式 v7 · 判分 v6.3 · 题库 v7 · 2026-06-11 10:48 SGT 最新: Run #163 · 公式 v7 · 判分 v6.3 · 题库 v7 · 2026-06-11 11:52 SGT

メイン変動 総合力 core_overall

GPT-5.5 +2.0
85.3 → 87.3
DeepSeek V4 Pro +1.6
86.4 → 88.0
Gemini 3.1 Pro +0.7
90.2 → 90.8
文心一言 4.5 -6.9
75.8 → 68.9
Gemini 2.5 Pro -5.4
89.5 → 84.1
GPT-o3 -4.7
87.6 → 82.9
Grok 4 -4.3
91.0 → 86.7
Claude Sonnet 4.6 -3.6
91.7 → 88.1
Claude Opus 4.7 -1.6
92.5 → 90.9
豆包 Pro -1.1
89.9 → 88.8
Qwen3 Max -0.7
87.8 → 87.1

サイドランキング変動 エンジニアリング判断 / タスク表現

Claude Opus 4.7 +9.4
エンジニアリング判断: 83.8 → 93.2
豆包 Pro +6.5
タスク表現: 88.0 → 94.5
Claude Sonnet 4.6 +6.1
タスク表現: 88.8 → 94.9
DeepSeek V4 Pro +4.8
タスク表現: 89.0 → 93.8
Claude Opus 4.7 +4.7
タスク表現: 93.9 → 98.6
Gemini 3.1 Pro +4.7
タスク表現: 89.3 → 94.0
GPT-o3 +4.7
タスク表現: 87.4 → 92.1
豆包 Pro +2.6
エンジニアリング判断: 86.9 → 89.5
Qwen3 Max +1.5
エンジニアリング判断: 84.5 → 86.0
Gemini 3.1 Pro +1.4
エンジニアリング判断: 90.8 → 92.2
DeepSeek V4 Pro +1.2
エンジニアリング判断: 87.5 → 88.7
GPT-5.5 +1.0
エンジニアリング判断: 92.5 → 93.5
文心一言 4.5 +0.6
エンジニアリング判断: 73.0 → 73.6
Qwen3 Max -12.0
タスク表現: 89.3 → 77.3
文心一言 4.5 -11.0
タスク表現: 82.6 → 71.6
Gemini 2.5 Pro -6.7
タスク表現: 89.5 → 82.8
Gemini 2.5 Pro -4.8
エンジニアリング判断: 89.3 → 84.5
Claude Sonnet 4.6 -4.6
エンジニアリング判断: 85.8 → 81.2
Grok 4 -1.7
エンジニアリング判断: 85.4 → 83.7
GPT-o3 -1.6
エンジニアリング判断: 91.1 → 89.5
Grok 4 -1.3
タスク表現: 92.8 → 91.5
GPT-5.5 -0.9
タスク表現: 92.4 → 91.5

運用信号変動 安定性 / 可用性 / コストパフォーマンス

DeepSeek V4 Pro +1.3
コストパフォーマンス: 47.8 → 49.1
DeepSeek V4 Pro +1.0
可用性: 99.0 → 100.0
Gemini 3.1 Pro +0.8
コストパフォーマンス: 30.1 → 30.9
Qwen3 Max +0.6
コストパフォーマンス: 57.7 → 58.3
GPT-5.5 +0.4
コストパフォーマンス: 20.7 → 21.1
Claude Sonnet 4.6 -24.7
安定性: 69.4 → 44.7
Gemini 2.5 Pro -21.6
安定性: 79.2 → 57.6
Grok 4 -16.9
安定性: 75.7 → 58.8
Qwen3 Max -15.4
安定性: 70.4 → 55.0
文心一言 4.5 -12.9
安定性: 48.5 → 35.6
GPT-o3 -12.5
安定性: 71.7 → 59.2
豆包 Pro -10.3
安定性: 76.3 → 66.0
DeepSeek V4 Pro -7.3
安定性: 71.0 → 63.7
Gemini 3.1 Pro -4.1
安定性: 76.2 → 72.1
GPT-5.5 -3.9
安定性: 65.4 → 61.5
Claude Opus 4.7 -3.7
安定性: 65.7 → 62.0
Gemini 2.5 Pro -1.6
コストパフォーマンス: 44.7 → 43.1
文心一言 4.5 -1.0
可用性: 100.0 → 99.0
Grok 4 -0.8
コストパフォーマンス: 29.4 → 28.6
Claude Sonnet 4.6 -0.6
コストパフォーマンス: 29.5 → 28.9
GPT-o3 -0.4
コストパフォーマンス: 10.6 → 10.2