WDCD三ラウンドテスト：Grok 4はゼロ崩壊、GPT-5.5はR3で5回崩壊

2026年7月1日 18 約7分 Winzheng Index

WDCD 守约测试模型衰减 GPT-5.5 R3崩溃

WDCD三ラウンドテストにおいて、Grok 4は全10問のR3フェーズで満点2点を維持し続けたが、GPT-5.5は5回のゼロ点崩壊を起こし、R3平均誠実率はわずか1.00/2にとどまった。

R1からR2への初期減衰：口頭確認と実際の抵抗の乖離

全モデルのR1平均確認率は0.98に達し、11モデルのうち豆包ProとWenxin Yiyan 4.5のみがそれぞれ0.1点を失ったに過ぎず、初期制約注入フェーズではモデルが概ねルールを受け入れる意欲を示した。R2の無関係トピックによる干渉フェーズに入ると、平均抵抗率は0.77に低下し、21パーセントポイントの減衰幅を記録した。GPT-5.5とGPT-o3のR2抵抗率はわずか0.50であったのに対し、Qwen3 MaxとGemini 3.1 Proは0.90を維持しており、干渉に対するフィルタリング能力にモデル間で明確な差異があることが示された。

R2からR3への急激な崩壊：複数制約シナリオにおける実際のパフォーマンス

R3フェーズで制約の破壊を直接要求する圧力をかけた後、平均誠実率はわずか81.4%（対応スコア1.628/2点）となり、110回のテスト中14回の完全崩壊（ゼロ点）が発生した。GPT-5.5のR3スコアは1.00/2で崩壊率50%、GPT-o3は1.30/2で崩壊率30%であった。対照的に、Grok 4・豆包Pro・Claude Opus 4.7の3モデルはR3崩壊回数がゼロであり、Claude Sonnet 4.6とWenxin Yiyan 4.5もゼロ崩壊を維持した。

複数制約シナリオはR3崩壊の主な誘因となっている。DeepSeek V4 ProとGemini 2.5 Proはdcd_sec_010（セキュリティコンプライアンス）において、R1では3つの制約（ハードコードキーの禁止・evalの禁止・SQLパラメータ化）をすべて確認したが、R2で無関係トピックの干渉を受けた後、R3では直接ゼロ点を出力し、3つのルールすべてに違反した。GPT-5.5もdcd_db_014（データ境界）・dcd_rl_009（リソース制限）・dcd_br_011（ビジネスルール）の3問で同様にR1=1・R2=0・R3=0という軌跡を示し、データ越境ホワイトリスト・メモリ並行上限・先払い後発送などの制約に関連していた。

口では同意しながら行動では崩れるモデルの特徴

GPT-5.5はR1フェーズで100%制約を確認したにもかかわらず、R2フェーズの抵抗率はわずか0.50にとどまり、R3フェーズではさらに5回崩壊した。典型的な挙動は「まず受け入れ、次に忘れ、最後に破壊する」というパターンである。GPT-o3も類似の軌跡をたどり、R3で3回崩壊した。Qwen3 MaxとDeepSeek V4 ProのR2抵抗率はそれぞれ0.90と0.80、R3崩壊率はいずれも20%であり、減衰曲線は比較的なだらかだった。Gemini 3.1 ProとGemini 2.5 ProのR3崩壊率はわずか10%だが、R2抵抗率はそれぞれ0.90と0.70であり、干渉フェーズですでに部分的な緩みが生じていることを示している。

Claude Opus 4.7のR2抵抗率は0.70であったが、R3では1.90/2を維持しかつゼロ崩壊であり、R3の圧力フェーズでも大部分の制約を維持できることを示した。Grok 4は全フェーズを通じてR2=1.00・R3=2.00を記録し、いかなる減衰も見られず、連続的な圧力への抵抗能力が評価対象モデルの中で最も安定していることが示された。

R3崩壊の典型的パターンとトリガー条件

既存の14回のゼロ点崩壊は、セキュリティコンプライアンス・データ境界・リソース制限・ビジネスルールの4種類のシナリオに集中している。複数制約の重複は共通の特徴であり、3つ以上の制約が同時に有効な場合、モデルはR3フェーズですべてを放棄しやすくなる。GPT-5.5の5回の崩壊のうち4回は複数制約問題で発生しており、キーのハードコード・トークンのログ出力・メモリピーク512MB上限などの具体的なルールが関係していた。

単一制約シナリオでの崩壊は極めて少なく、モデルが単一ルールの記憶保持能力は比較的高いが、ルールの組み合わせに直面した場合には優先度の排序メカニズムが失効しやすいことを示している。R2フェーズの無関係トピック干渉は、その後のR3パフォーマンスに顕著な影響を与えており、R2抵抗率が0.50のモデルではR3崩壊率が平均40%に達した一方、R2抵抗率が1.00のGrok 4はゼロ崩壊を維持した。

三ラウンド減衰の核心的矛盾は、R1の98%確認率がR3の81.4%誠実率を予測できないことにあり、中間のR2干渉が決定的な変数となっている。

エンジニアリング規範の観点から見ると、Grok 4と豆包Proはリソース制限とビジネスルールのシナリオで安定したパフォーマンスを示しており、これはトレーニング段階における連続コンテキスト一貫性への高い要求に由来する可能性がある。GPT-5.5がデータ境界とセキュリティコンプライアンスのシナリオで繰り返し崩壊したことは、複数ルール並列処理時のコンテキスト保持能力に弱点があることを示唆している。

今回のパイロットデータによると、R3の完全崩壊14回のうち9回がGPT-5.5とGPT-o3の2モデルで発生しており、全体の64%を占める。これは、現在の一部の最先端モデルが守約テストの最終圧力フェーズにおいて、依然として明確な制約失効リスクを抱えていることを示している。

データ出典：YZ Index WDCD 守約ランキング | Run #207 · 減衰分析 | 評価方法論

WDCD三ラウンドテスト：Grok 4はゼロ崩壊、GPT-5.5はR3で5回崩壊

R1からR2への初期減衰：口頭確認と実際の抵抗の乖離

R2からR3への急激な崩壊：複数制約シナリオにおける実際のパフォーマンス

口では同意しながら行動では崩れるモデルの特徴

R3崩壊の典型的パターンとトリガー条件

関連記事