基準: Run #162 · 公式 v7 · 判分 v6.3 · 题库 v7 · 2026-06-11 10:48 SGT
最新: Run #163 · 公式 v7 · 判分 v6.3 · 题库 v7 · 2026-06-11 11:52 SGT
メイン変動 総合力 core_overall
GPT-5.5
+2.0
85.3 → 87.3
DeepSeek V4 Pro
+1.6
86.4 → 88.0
Gemini 3.1 Pro
+0.7
90.2 → 90.8
文心一言 4.5
-6.9
75.8 → 68.9
Gemini 2.5 Pro
-5.4
89.5 → 84.1
GPT-o3
-4.7
87.6 → 82.9
Grok 4
-4.3
91.0 → 86.7
Claude Sonnet 4.6
-3.6
91.7 → 88.1
Claude Opus 4.7
-1.6
92.5 → 90.9
豆包 Pro
-1.1
89.9 → 88.8
Qwen3 Max
-0.7
87.8 → 87.1
サイドランキング変動 エンジニアリング判断 / タスク表現
Claude Opus 4.7
+9.4
エンジニアリング判断: 83.8 → 93.2
豆包 Pro
+6.5
タスク表現: 88.0 → 94.5
Claude Sonnet 4.6
+6.1
タスク表現: 88.8 → 94.9
DeepSeek V4 Pro
+4.8
タスク表現: 89.0 → 93.8
Claude Opus 4.7
+4.7
タスク表現: 93.9 → 98.6
Gemini 3.1 Pro
+4.7
タスク表現: 89.3 → 94.0
GPT-o3
+4.7
タスク表現: 87.4 → 92.1
豆包 Pro
+2.6
エンジニアリング判断: 86.9 → 89.5
Qwen3 Max
+1.5
エンジニアリング判断: 84.5 → 86.0
Gemini 3.1 Pro
+1.4
エンジニアリング判断: 90.8 → 92.2
DeepSeek V4 Pro
+1.2
エンジニアリング判断: 87.5 → 88.7
GPT-5.5
+1.0
エンジニアリング判断: 92.5 → 93.5
文心一言 4.5
+0.6
エンジニアリング判断: 73.0 → 73.6
Qwen3 Max
-12.0
タスク表現: 89.3 → 77.3
文心一言 4.5
-11.0
タスク表現: 82.6 → 71.6
Gemini 2.5 Pro
-6.7
タスク表現: 89.5 → 82.8
Gemini 2.5 Pro
-4.8
エンジニアリング判断: 89.3 → 84.5
Claude Sonnet 4.6
-4.6
エンジニアリング判断: 85.8 → 81.2
Grok 4
-1.7
エンジニアリング判断: 85.4 → 83.7
GPT-o3
-1.6
エンジニアリング判断: 91.1 → 89.5
Grok 4
-1.3
タスク表現: 92.8 → 91.5
GPT-5.5
-0.9
タスク表現: 92.4 → 91.5
運用信号変動 安定性 / 可用性 / コストパフォーマンス
DeepSeek V4 Pro
+1.3
コストパフォーマンス: 47.8 → 49.1
DeepSeek V4 Pro
+1.0
可用性: 99.0 → 100.0
Gemini 3.1 Pro
+0.8
コストパフォーマンス: 30.1 → 30.9
Qwen3 Max
+0.6
コストパフォーマンス: 57.7 → 58.3
GPT-5.5
+0.4
コストパフォーマンス: 20.7 → 21.1
Claude Sonnet 4.6
-24.7
安定性: 69.4 → 44.7
Gemini 2.5 Pro
-21.6
安定性: 79.2 → 57.6
Grok 4
-16.9
安定性: 75.7 → 58.8
Qwen3 Max
-15.4
安定性: 70.4 → 55.0
文心一言 4.5
-12.9
安定性: 48.5 → 35.6
GPT-o3
-12.5
安定性: 71.7 → 59.2
豆包 Pro
-10.3
安定性: 76.3 → 66.0
DeepSeek V4 Pro
-7.3
安定性: 71.0 → 63.7
Gemini 3.1 Pro
-4.1
安定性: 76.2 → 72.1
GPT-5.5
-3.9
安定性: 65.4 → 61.5
Claude Opus 4.7
-3.7
安定性: 65.7 → 62.0
Gemini 2.5 Pro
-1.6
コストパフォーマンス: 44.7 → 43.1
文心一言 4.5
-1.0
可用性: 100.0 → 99.0
Grok 4
-0.8
コストパフォーマンス: 29.4 → 28.6
Claude Sonnet 4.6
-0.6
コストパフォーマンス: 29.5 → 28.9
GPT-o3
-0.4
コストパフォーマンス: 10.6 → 10.2