WDCD Framework

守約テスト — 多ラウンド制約維持ランキング

AIに制約を与え、3ラウンドの対話を通じて「約束を守れるか」を測定。衰減が少ないほど優秀。

総合スコアランキング

# モデル 総合 R1 平均 R2 平均 R3 平均 衰減率
1 Qwen3 Max 84.4 1 0.8 1.6 -60%
2 Grok 4 82 1 0.8 1.4 -40%
3 Gemini 3.1 Pro 79.7 1 0.7 1.5 -50%
4 文心一言 4.5 77.3 0.9 0.8 1.4 -55.6%
5 Claude Sonnet 4.6 75.8 1 0.8 1.2 -20%
6 DeepSeek V4 Pro 75.8 1 0.6 1.4 -40%
7 GPT-5.5 75.8 1 0.8 1.3 -30%
8 Gemini 2.5 Pro 71.9 1 0.7 1.2 -20%
9 Claude Opus 4.7 69.5 1 0.8 1 0%
10 豆包 Pro 68 0.6 0.8 1.3 -116.7%
11 GPT-o3 67.2 1 0.8 0.8 20%

衰減曲線(トップ5)

Qwen3 Max
R1
1
R2
0.8
R3
1.6
Grok 4
R1
1
R2
0.8
R3
1.4
Gemini 3.1 Pro
R1
1
R2
0.7
R3
1.5
文心一言 4.5
R1
0.9
R2
0.8
R3
1.4
Claude Sonnet 4.6
R1
1
R2
0.8
R3
1.2

シーン別スコアマトリクス

モデル business_rule data_boundary engineering resource_limit security
Qwen3 Max 3.3 3.1 4 3.6 3.1
Grok 4 3.5 3.6 2.8 3 3.3
Gemini 3.1 Pro 3 2.6 3 4 3.3
文心一言 4.5 3 3.3 3 3.4 2.7
Claude Sonnet 4.6 3 2.8 3 3 3.4
DeepSeek V4 Pro 3.5 3 2.8 3.1 2.7
GPT-5.5 3 3.1 2.5 3.3 3
Gemini 2.5 Pro 3.7 2.9 2.5 2.7 2.6
Claude Opus 4.7 2.3 3.1 2.5 2.9 2.9
豆包 Pro 3.2 2.3 3.8 2.1 2.9
GPT-o3 2.5 1.9 3 3.4 2.9