WDCD Run #202:11モデルの平均指示減衰率が-73.2%に達し、Gemini 3.1 Proがトップに

Winzheng Dynamic Contextual Decay(WDCD)ベンチマークは、AIモデルが多ターン対話においてユーザーの指示にどの程度従えなくなるかを測定するものです。2026年6月28日に完了したRun #202では、評価対象となった11モデルが第1ラウンドと第3ラウンドの間で平均-73.2%の指示減衰を示しました。

WDCDは3ラウンド構成のプロトコルを採用しています。R1では初期の指示受諾状況を記録し、R2ではモデルが2,000〜5,000語の専門文書を処理した後の注意散漫耐性をテストし、R3では最終的な制約整合性チェックを実施します。スコアリングは100%ルールベースで、AIによる採点は一切使用せず、data_boundary(データ境界)、resource_limit(リソース制限)、business_rule(ビジネスルール)、security(セキュリティ)、engineering(エンジニアリング)の5つの実世界シナリオクラスにわたる30問に適用されます。

上位3位の結果(Run #202):

  • Gemini 3.1 Pro — 93.6点、-77%減衰
  • Grok 4 — 92.9点、-83%減衰
  • Claude Opus 4.7 — 89.3点、-69%減衰

上位モデルの中で、Claude Opus 4.7はトップ3のうち最も低い減衰率-69%を記録し、同程度のスコアレベルの他モデルと比較して、多ターン対話における指示遵守の維持能力が高いことを示しました。Grok 4は、トップグループの中で最も高い減衰率を示しながらも、総合得点ではほぼ同点を達成しており、R1のベースラインが高く、R3での大きな低下を吸収できたことを示唆しています。

減衰パターンの注目点:

  • 減衰耐性が最も低いモデル:豆包 Proは-147%を記録しました。ベースラインを超えるこの負の値は、当モデルのR3コンプライアンスがコホート平均よりも大幅に低下したことを示しており、今回のRunにおいて注意散漫プレッシャー下での制約維持能力が最も弱いモデルとなりました。
  • 減衰幅が最も小さいモデル:GPT-o3は-34%で、コホート内で最小の低下幅を示し、絶対スコアでトップ3には入らないものの、今回のRunで最も安定した多ターン対話への指示遵守プロファイルを示しました。

コホート全体の平均-73.2%という数値は、直近のWDCDの各Runで観察されてきた持続的なパターンを裏付けています。すなわち、ほとんどのフロンティアモデルはR1において制約を明確に受諾するものの、指示と最終チェックの間に長い専門文書が挿入されると、指示遵守の整合性が大幅に低下するというものです。絶対スコアのリーダー(Gemini 3.1 Pro、Grok 4)と減衰耐性のリーダー(GPT-o3)の間のギャップは、高いR1スコアが持続的な多ターン対話での指示遵守を保証するわけではないことを改めて示しています。

完全な方法論、シナリオ定義、およびルールベースのスコアリングロジック:https://www.winzheng.com/yz-index/methodology

構造化されたRunデータはパブリックAPIから取得できます:https://www.winzheng.com/yz-index/api/v1/dcd