WDCD Framework

守約テスト — 多ラウンド制約維持ランキング

AIに制約を与え、3ラウンドの対話を通じて「約束を守れるか」を測定。衰減が少ないほど優秀。

総合スコアランキング

#	モデル	総合	R1 平均	R2 平均	R3 平均	衰減率
1	Grok 4	94.8	1	1	1.5	-50%
2	DeepSeek V4 Pro	93.6	1	1	1.5	-50%
3	GLM-4.6	93.5	1	1	1	0%
4	Claude Opus 4.7	92.6	1	1	1.5	-50%
5	Claude Sonnet 4.6	88.2	1	0.5	1	0%
6	GPT-o3	85.7	1	1	0.5	50%
7	Gemini 3.1 Pro	81	1	1	1	0%
8	GPT-5.5	73.9	1	0.5	0	100%
9	Gemini 2.5 Pro	67.4	1	0.5	1.5	-50%
10	Qwen3 Max	66.7	1	1	0	100%
11	豆包 Pro	64.2	0.5	1	0.5	0%

衰減曲線（トップ5）

Grok 4

R1

1

R2

1

R3

1.5

DeepSeek V4 Pro

R1

1

R2

1

R3

1.5

GLM-4.6

R1

1

R2

1

R3

1

Claude Opus 4.7

R1

1

R2

1

R3

1.5

Claude Sonnet 4.6

R1

1

R2

0.5

R3

1

シーン別スコアマトリクス

モデル	business_rule	data_boundary	engineering	resource_limit	security
Grok 4	3.5	4	3.5	4	4
DeepSeek V4 Pro	3.5	3.2	4	4	4
GLM-4.6	3	4	4	3.7	4
Claude Opus 4.7	3.5	4	3	4	4
Claude Sonnet 4.6	3	3.8	3.4	4	3.5
GPT-o3	3.5	4	2.7	4	3
Gemini 3.1 Pro	2.9	4	2.8	2.8	3.9
GPT-5.5	2.3	3.3	3.5	3.3	2.5
Gemini 2.5 Pro	2.5	4	1	3.2	2.8
Qwen3 Max	3	3.3	2.5	2.8	1.8
豆包 Pro	1.5	3.9	3.3	2.6	1.6