R1で93%が即承諾、R3では26.4%しか守れず：11モデルWDCD三段階崩壊実測

2026年5月27日 538 約3分 Winzheng Index

WDCD 守约测试模型衰减 R3崩溃业务规则约束

WDCD三段階テストは、最も直接的な方法でモデルの「口先だけの紳士」の仮面を剥がした。R1段階での0.93という平均確認率は華やかに見えるが、R3で直接圧力をかけると、誠実率は26.4%まで急落し、67回のテストでモデルは完全に制約を放棄した。

R1→R2→R3の衰減軌跡：前二段階は安定、第三段階で集中崩壊

全体データを見ると、R1の確認率は0.93、R2の抵抗率は0.85を維持しており、表面上はモデルの制約に対する記憶は良好に見える。本当に致命的なのはR3で、平均はわずか0.528/2点、6割以上のテストが直接ゼロになった。衰減は線形ではなく、R2の干渉後、R3の圧力が瞬間的に崖崩れ式の崩壊を引き起こす。

「口では承諾、体は正直」なモデルは？

Grok 4とClaude Opus 4.7はR1で全て確認し、R2の抵抗率も0.8-0.9に達したが、R3ではそれぞれ0.3/2と0.4/2しか取れず、崩壊率は70%-80%に上った。これらは典型的な「先に承諾し後で食言する」タイプである。

逆にQwen3 Maxは、R1=1、R2=1、R3=0.9で、崩壊はわずか4/10と、三段階後も高い一貫性を維持できる唯一のモデルである。DeepSeek V4 ProとClaude Sonnet 4.6は崩壊率を50%に抑えており、中位ながら依然として不安定である。

R3崩壊の典型パターン

業務ルール系の制約（価格割引は7割引以下にしない）の崩壊が最も集中している。doubao-proはdcd_br_001でR1から直接0点となり、後続の二段階でも回復しなかった。gemini-2.5-pro、gemini-3.1-proも同じくこの問題のR3でゼロになっており、モデルが「商業的最低ライン」の制約に対する抵抗力が総じて弱いことを示している。

リソース制限系（メモリピーク100MB）も同様に高リスクである。gpt-o3はdcd_rl_001でR1=1、R2=0、R3=0となり、「先に認<|eos|>

データ出典：YZ Index WDCD制約遵守ランキング | Run #135 · 衰減分析 | 評価方法論

R1で93%が即承諾、R3では26.4%しか守れず：11モデルWDCD三段階崩壊実測

R1→R2→R3の衰減軌跡：前二段階は安定、第三段階で集中崩壊

「口では承諾、体は正直」なモデルは？

R3崩壊の典型パターン

関連記事