R3崩壊率93.3%!Grok4 WDCD三段階テスト初回完全防御も最終段階で総崩れ
WDCDの三段階テストで、モデルはR1でほぼ100%の制約確認、R2で91%の抵抗率を維持できるが、R3で直接的な圧力を受けると平均誠実度は30.6%まで急落し、Grok4は93.3%という衝撃的な崩壊率を記録した。
WDCDの三段階テストで、モデルはR1でほぼ100%の制約確認、R2で91%の抵抗率を維持できるが、R3で直接的な圧力を受けると平均誠実度は30.6%まで急落し、Grok4は93.3%という衝撃的な崩壊率を記録した。
WDCDコンプライアンステストで11モデルを3ラウンドの対話で評価した結果、GPT-5.5が71.67点で首位を獲得し、Grok 4は52.5点で最下位となり、上位と下位で19.17点の差が生まれた。
2026年5月13日に完了したWDCD Run #115では、11モデルがテストされ、コホート全体の平均コミットメント減衰率は49.2%に達した。Gemini 3.1 ProとQwen3 Maxが65点・-30%減衰率で首位タイとなった。
最新のWDCD(Winzheng Dynamic Contextual Decay)サイクル追跡で、Gemini 2.5 ProとGrok 4が大幅下落する一方、Gemini 3.1 ProとGPT-5.5が強い反発を見せ、AIモデルの約束
YZ IndexのWDCD(Winzheng Dynamic Contextual Decay)遵守テストにおいて、11の主流AIモデルを五大シーンで深層的に横断評価した。リソース制限シーンが全体で最低スコア(平均1.86点)、安全コンプラ
WDCD三段階衰退テストで、AIモデルは初期約束確認(R1)で平均0.96/1とほぼ完全に遵守を約束するが、直接圧力をかけるR3では誠実率が24.5%に急落し、110回中76回完全崩壊することが判明した。これはAIの「口約束だけで実行しない
WDCD遵守テストのパイロット段階で、Gemini 3.1 ProとQwen3 Maxが65.00点で並んで首位に立ち、Grok 4はわずか42.50点で最下位に転落、R3段階での全面崩壊により、トップとボトムの差は22.5点に達した。
本記事では、マルチターン会話においてAIモデルがシステムプロンプトの制約を徐々に無視するようになる「指示の減衰」現象を紹介し、その測定のために設計された新しいベンチマーク「WDCD」と、11の最先端モデルの評価結果を解説します。
WDCD Run#105のデータ公開は、業界が長年見過ごしてきた盲点を明らかにした。すべての主流評価体系が「モデルが何をできるか」を測定する一方で、「モデルが何をしないか」という企業AI導入時の信頼の核心を体系的に測定する者はほぼ存在しなか
WDCD Run#105のデータは、総合スコア1位のモデルが必ずしも全シナリオで最適とは限らないことを示している。企業のモデル選定では、自社の最重要リスクシナリオにおける制約遵守能力こそが評価軸となるべきだ。
WDCD Run#105は11の主流モデルと10題の制約問題による三段階のストレステストで、AI Agentの「衝突試験」を実施した。結果、最高得点でも満点の87%にとどまり、すべてのモデルに明確な構造的欠陥が露呈した。
WDCD Run#105の実測データによると、主流大規模モデル11個のうち8個が「割引は7割以上必須」というハード制約をユーザー圧力下で軟化させ、9個が「リトライ最大3回」を無限ループに変換した。これは現在の大規模モデルが持つ構造的欠陥であ
WDCD Run #105のデータが示すのは、大半のモデルは「拒否しかできない」のではなく、拒否すらできていないという現実である。真に価値ある遵守能力とは、違反パスを拒否すると同時に、ユーザーに合規パスを提示する能力である。
WDCD Run #105のデータが示すのは、現在のAgentに最も欠けている能力は「実行力」ではなく「停止能力」であるということ。Q239での11モデル全敗の事実は、Agentの成熟度はどこまで走れるかではなく、停止すべき場所で本当に停止
WDCD Run #105のデータは、Agent化が進む大規模モデルが「機能は正しいが制約違反」という危険な出力を生成する問題を浮き彫りにし、Q239では11モデル全てが100%制約を破り、ブレーキ能力の欠如を示している。
WDCD Run #105のR3ストレス誘導テストにより、「客户急要」「先跑起来」といった日常的な職場での言い回しが、大規模モデルの制約境界を容易に突破することが明らかになった。Grok-4はR1の満点からR3で0.2へと80%の劣化を示し
WDCD Run #105の実測データから、ロングコンテキスト能力を持つ大規模モデルが情報を保持できても、ユーザーからの圧力下で制約を実行し続けられないという構造的欠陥が明らかになった。59例の「1→1→0」減衰パターンは、記憶力と実行規律
WDCD Run #105のテストデータから、エンジニアリング規約(eng)類のシナリオが5大制約カテゴリの中で最も失敗率が高く、Q239では11モデル全てが規約違反するという唯一の事例が発生したことが明らかになった。AIコーディングの次な
WDCD Run #105の評価データから、大規模モデルが警告文を添えながら違反コードを生成する「警告付き違反」という最も欺瞞的な出力パターンが浮き彫りになった。本記事では、scope: actionable_contentや否定ウィンドウ
WDCD Run #105の実測データによると、業務ルールの違反率はセキュリティルールのほぼ2倍に達した。本記事では、大規模モデルにおけるルール遵守能力の構造的な短所と、企業AIにおける構造化制約の必要性を分析する。