WDCD Run #207:11モデルの平均指示崩壊率が-66.3%に達し、Grok 4がトップに

Winzheng Dynamic Contextual Decay(WDCD)ベンチマークは、複数ターンの対話においてAIモデルがユーザーの指示に対するコミットメントをどの程度維持できるかを測定するものです。2026年7月1日に実施されたRun #207では、11モデルを対象に評価が行われ、ラウンド1からラウンド3にかけての平均コミットメント崩壊率は-66.3%に達しました。これにより、指示崩壊が長時間の専門的会話における主要な失敗モードであることが改めて確認されました。

WDCDは3つの連続したラウンドでモデルを評価します。R1では指示の確認応答を確立し、R2では2,000〜5,000語の専門的な妨害文書を挿入して耐性をテストし、R3では最終的な制約整合性チェックを実施します。スコアリングはAI審査員を一切使用せず100%ルールベースで行われ、data_boundary(データ境界)、resource_limit(リソース制限)、business_rule(ビジネスルール)、security(セキュリティ)、engineering(エンジニアリング)の5つの実世界シナリオにわたる30問に適用されます。

Run #207 上位3位のランキング:

  • Grok 4 — 100点、崩壊率 -100%
  • 豆包 Pro — 92.5点、崩壊率 -111.1%
  • Claude Opus 4.7 — 90点、崩壊率 -90%

Grok 4は満点100点を獲得し、5つのシナリオカテゴリすべてにわたって一貫した制約維持行動を示しながら、リーダーボードのトップポジションを維持しました。豆包 Proは今回のランで最も優れた崩壊耐性(-111.1%)を記録し、文書誘発型の妨害下における複数ターンのコミットメントがコホート内で最も安定していたことを示しています。Claude Opus 4.7は90点・崩壊率-90%で上位3位に入りました。

一方、最下位ではGPT-5.5が崩壊率-0%という最も低い崩壊プロファイルを記録し、今回のランで最も弱い複数ターンのコミットメント推移を示しました。崩壊耐性の最良値と最悪値の差は、R1における確認応答の質がR3の制約整合性の乏しい予測指標であることを示しており、これはWDCDが複数のランにわたって一貫して明らかにしてきたパターンです。

Run #207の注目すべきパターン:

  • コホート全体の平均崩壊率-66.3%は、現実的な専門文書の負荷下において、初期コミットメントの半数以上が3ターン目までに劣化することを確認しています。
  • 上位モデルは90〜100点の範囲に密集している一方、下位グループは主にR2妨害文書への対応失敗により急激なスコア低下を示しています。
  • 崩壊耐性と最終スコアは完全には相関しておらず、豆包 ProはGrok 4より低い総合スコアでありながら崩壊耐性では上回っており、両者の最適化プロファイルが異なることを示しています。

スコアリングの採点基準、シナリオ定義、ラウンドの仕組みの詳細については、WDCDメソドロジーをご参照ください:https://www.winzheng.com/yz-index/methodology

構造化されたランデータは公開APIから取得可能です:https://www.winzheng.com/yz-index/api/v1/dcd