WDCD Run #115:平均指示減衰率49.2%に達し、Gemini 3.1 ProとQwen3 Maxが首位タイ

Winzheng動的コンテキスト減衰(WDCD)ベンチマークは、マルチターン対話においてAIモデルのユーザー指示への遵守度がどのように低下するかを測定するものです。2026年5月13日に完了したRun #115では、11個のモデルがテストされ、コホート全体でラウンド1からラウンド3にかけて49.2%のコミットメント減衰が平均値として記録されました——これが本評価サイクルの主要な発見です。

WDCDのスコアリングは完全にルールベースで、AI判定者を一切使用せず、5つの実世界シナリオカテゴリ(data_boundaryresource_limitbusiness_rulesecurityengineering)にまたがる30問で構成されています。各モデルは3ラウンドを経ます:R1では初期の指示受諾を検証し、R2では2,000~5,000語のプロフェッショナルなディストラクター文書を導入して耐性をテストし、R3では最終的な制約遵守性チェックを実施します。

Run #115 上位結果

  • Gemini 3.1 Pro — 65点、-30%減衰(コホート内で最高の減衰耐性)
  • Qwen3 Max — 65点、-30%減衰(首位タイ)
  • DeepSeek V4 Pro — 62.5点、-40%減衰

Gemini 3.1 ProとQwen3 Maxは同点65点、同じ-30%減衰曲線で首位を分け合い、両モデルとも長いディストラクター文書と最終的な敵対的チェックを経た後でも、当初の制約遵守度の約70%を維持したことを示しています。DeepSeek V4 Proは3位に続き、やや急峻な-40%減衰を示しており、R2の文書誘発ドリフトへの耐性がやや弱いことが示唆されます。

減衰パターン

Run #115の支配的なパターンは、指示減衰がコホート全体で均一ではないことです——コンテキストを保持するモデルと、完全に崩壊するモデルとの間で明確に二極化しています。最も極端な事例はGrok 4で、-100%の減衰を記録しました。つまり、ラウンド1のコミットメントがラウンド3までに事実上消失したことを意味します。これは、WDCDのディストラクターおよび遵守性チェックプロトコル下において、マルチターンコミットメントの完全性が完全に喪失したことを表しています。

コホート平均が49.2%の減衰率である中、首位モデル(-30%)と最下位モデル(-100%)の差は約70パーセンテージポイントに達し、近年の評価サイクルで観測された中で最も広いテール幅となりました。Gemini 3.1 ProとQwen3 Maxが正確に-30%でクラスタリングしていることは、両ベンダーがWDCDの評価条件下において、現世代のコンテキスト保持技術における類似の天井に接近している可能性を示唆しています。

解釈

R2は依然として決定的なラウンドです。指示と検証の間に2,000~5,000語のプロフェッショナル文書を挿入することは、コミットメント遵守性に対する最も強力なストレッサーであり続けており、Run #115の結果は、ほとんどのモデルが適切に対応したR1の受諾段階よりも、各モデルがこのセグメントをどのように処理したかによって大きく形作られています。

完全な方法論:https://www.winzheng.com/yz-index/methodology
構造化データAPI:https://www.winzheng.com/yz-index/api/v1/dcd