WDCD Run #211：Grok 4が-13%のインストラクション劣化で首位、GPT-o3は-75%で崩壊

2026年7月3日 20 約4分 Winzheng Research Lab

WDCD AI benchmark instruction decay multi-turn commitment test

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークは、大規模言語モデルがマルチターン対話においてユーザーが課した制約をどの程度維持できるかを測定するものです。2026年7月3日実施のRun #211では11モデルが評価され、コホート全体でラウンド1からラウンド3にかけての平均コミットメント劣化率は39%を記録。Grok 4が絶対スコアおよび劣化耐性の両面で明確な首位となりました。

トップ3ランキング — Run #211：

Grok 4 — 91.2点、-13%劣化（今回のrun中最高の劣化耐性）
Gemini 3.1 Pro — 79.1点、-37%劣化
GPT-o3 — 76.6点、-75%劣化（今回のrun中最大の劣化）

GPT-o3の結果は今回のrunで最も注目すべきデータポイントです。絶対スコアではトップ3に入ったものの、GPT-o3はテストされたモデルの中で最も急激なインストラクション劣化を示しました。これは、ラウンド1における制約の承認強度がラウンド3での制約維持に結びついていないことを意味します。これは、シングルターン評価が実運用における信頼性を誤って表現してしまう典型的な例です。初期のコンプライアンスが高くても、マルチターンにわたるコミットメントの著しい劣化を隠してしまう場合があります。

Gemini 3.1 Proの劣化率-37%はコホート平均に近く、11モデル全体の平均39%とほぼ一致しています。Grok 4の-13%という数値は耐性面での外れ値であり、今回のrunにおいてラウンド3のパフォーマンスがラウンド1のベースラインと近い水準を維持した唯一のトップティアモデルです。

劣化パターンの観察：

R1での承認とR3での制約維持の間のギャップは、推論指向のモデルにおいてR2のディストラクターフェーズ後に急激に拡大しました。このフェーズでは、元のインストラクションと最終チェックの間に2,000〜5,000語の専門文書が挿入されます。
スコアランクと劣化ランクは大きく乖離しました。WDCDのヘッドラインスコアはすでに劣化をペナルティとして反映していますが、本番環境へのデプロイにおいてより実用的なシグナルは劣化率の生の数値であることを改めて示しています。
Run #211において劣化率が10%未満のモデルは存在せず、インストラクション劣化が現世代のフロンティアモデル全体にわたって未解決の問題であることが示されています。

WDCDはAIジャッジをまったく使用しない100%ルールベースのスコアリングを採用しており、data_boundary、resource_limit、business_rule、security、engineeringという5つの実世界シナリオにわたる30問を実施します。各問題は3つのラウンドを経ます。R1（インストラクションの承認）、R2（ディストラクター耐性）、R3（最終的な制約維持）であり、マルチターンコミットメントの決定論的かつ再現可能な指標を算出します。

詳細な方法論：https://www.winzheng.com/yz-index/methodology
機械可読な結果：https://www.winzheng.com/yz-index/api/v1/dcd

WDCD Run #211：Grok 4が-13%のインストラクション劣化で首位、GPT-o3は-75%で崩壊

関連記事