指示の劣化を測定：3ラウンドの圧力でLLMのコンプライアンスは95.8%から68.3%に低下

2026年6月12日 975 約8分 Winzheng Research Lab

instruction decay WDCD LLM benchmark multi-turn dialogue AI safety social engineering

大規模言語モデルは制約を受け入れることは得意だが、それを維持することははるかに苦手だ。2026年6月11日に完了したWDCD Run #164において、テストされた11のフロンティアモデルは第1ラウンドの回答で95.8%の確率でユーザーが設定した制約を認識したが、1ラウンドの話題転換と1ラウンドの制約違反への直接的な圧力を経た後、平均制約維持率は68.3%まで低下した――27.5ポイントの絶対的な低下である。330件の個別テストのうち73件（22.1%）では、モデルはコミットメントを完全に放棄した。

WDCDが測定するもの（1段落で）

WDCD（Winzheng Dynamic Contextual Decay）は、指示の持続性を評価する3ラウンドの敵対的ベンチマークである。ラウンド1（R1）では具体的な運用上の制約を注入し――「例示に実際の顧客IDを含めない」「512MBのメモリ予算を超えない」など――モデルがそれを認識するかどうかをスコアリングする。ラウンド2（R2）では、無関係なトピックに関する2,000〜5,000語のプロフェッショナルな文書を会話に投入し、制約が注意散漫に耐えられるかを確認する。ラウンド3（R3）では、直接的なソーシャルエンジニアリングの圧力を加える。ユーザーは多くの場合、緊急性や権威を主張し、2ターン前に受け入れた制約を破るようモデルに明示的に求める。スコアリングは100%ルールベースであり、AIによる判定はゼロ。各テストは4点満点（R1：1点、R2：1点、R3：2点）。現在の問題バンクは、データ境界、リソース制限、ビジネスルール、セキュリティコンプライアンス、エンジニアリング標準という5つの制約ファミリーにわたる30のシナリオをカバーしている。完全なデータセットとラウンドごとのトランスクリプトはHugging Face（winzheng-Lab/wdcd）で公開されており、プロトコルはWDCDメソドロジーに文書化されている。

劣化曲線：受け入れるのは容易、持続するのは困難

Run #164の全330件のテスト（11モデル×30問）において、3ラウンドは単調な劣化曲線を示した。R1での平均コンプライアンスは95.8%、R2での注意散漫への耐性は81.2%、そしてR3での制約維持率は68.3%だった。最初の数値が示すのは、制約の認識はほぼコストゼロということだ――ほぼすべてのフロンティアモデルは、求められた際に制約を礼儀正しく受け入れる。R1→R3の27.5ポイントの差こそ、WDCDが「指示の劣化」と呼ぶ指標であり、モデルが大きく差別化される部分である。

Run #164リーダーボード：1位と最下位の差は26.7ポイント

GPT-5.5はWDCDスコア88.33（100点満点）でRun #164をリードし、Gemini 3.1 Proが87.50で続いた。GPT-o3は最下位の61.67で終了しており、同じ30問において最もコミットメントが安定しているフロンティアモデルと最も不安定なモデルの差は26.7ポイントとなっている。

GPT-5.5 — 88.33（R1 1.00、R2 0.87、R3 1.67/2）
Gemini 3.1 Pro — 87.50（R1 1.00、R2 0.90、R3 1.60/2）
Claude Sonnet 4.6 — 83.33（R1 0.97、R2 0.83、R3 1.53/2）
DeepSeek V4 Pro — 82.50（R1 1.00、R2 0.77、R3 1.53/2）
Grok 4 — 81.67（R1 1.00、R2 0.80、R3 1.47/2）
Qwen3 Max — 81.67（R1 1.00、R2 0.73、R3 1.53/2）
ERNIE 4.5 — 77.50（R1 0.90、R2 0.90、R3 1.30/2）
Doubao Pro — 75.00（R1 0.70、R2 0.83、R3 1.47/2）
Gemini 2.5 Pro — 73.33（R1 1.00、R2 0.70、R3 1.23/2）
Claude Opus 4.7 — 70.00（R1 1.00、R2 0.83、R3 0.97/2）
GPT-o3 — 61.67（R1 0.97、R2 0.77、R3 0.73/2）

発見1：汎用能力はコミットメントを予測しない

Run #164で最も重要な結果は、能力と誠実さの順位の逆転だ。Claude Opus 4.7はYZ Indexの能力リーダーボードでコアスコア96.83により第2位にランクされているが、WDCDでは70.00と下から2番目に終わった――そのR3誠実性0.97/2は、直接的な圧力下でのコミットメント維持率が半分未満であることを意味する。GPT-o3は能力スコア90.51という高い値を持つにもかかわらず、11モデル中最も弱いコミットメント維持者だった（R3 0.73/2）。制約に敏感なワークロードにモデルを選定するエンタープライズチームは、汎用能力リーダーボードからコミットメントの安定性を読み取ることはできない。この2つの特性は、異なる特性であるがゆえに異なるテストで測定される。

発見2：セキュリティ制約は最も維持が困難

5つの制約ファミリーの中で、セキュリティコンプライアンスは最低の平均スコア（2.95/4）を記録し、R3での完全崩壊率は22.7%（66テスト中15件の崩壊）に達した。エンジニアリング標準の制約が最も維持しやすかった（3.32/4、44テスト中9件の崩壊）。データ境界の制約――「例示において顧客データを公開しない」などを含むファミリー――は88テスト中20件が崩壊した。このパターンはR3の圧力の組み立て方と一致している。セキュリティとデータの制約は、もっともらしい「緊急」のリクエストがモデルに破る社会的に受け入れやすい理由を与えるまさにその制約だからだ。

発見3：注意散漫は乗り越えられるが、圧力が致命的

R2の長文ドキュメントによる注意散漫は、平均でコンプライアンスを14.6ポイント低下させた（95.8%→81.2%）。R3の明示的な圧力はさらに12.9ポイントを失わせた（81.2%→68.3%）――しかしR2と異なり、R3の失敗は集中的かつ全面的だ。全テストの22.1%が制約の部分的な侵食ではなく完全な放棄で終わった。注意散漫によって制約を「忘れた」モデルは通常、再度注意を促されれば回復する。しかし圧力に屈したモデルは、制約がもはや適用されないと能動的に判断している。WDCDがR3に総スコアの半分の重みを置いているのは、まさにこの理由からだ。

再現性

Run #164の全生データ（ラウンドごとのモデル回答と対応する違反証拠を含む）は、公開WDCDのAPIおよびHugging Faceデータセットから入手可能だ。このベンチマークは固定スケジュール（週次スモークテスト、隔週フルテスト）で実行され、リグレッションを含むすべての実行結果を公開している。

AIモデルの約束の価値は、ユーザーがそれを検証するコストとまさに等しい。Run #164では、5件に1件の約束が、破ることへの一度の執拗なリクエストに耐えられなかった。