WDCD Run #169:Grok 4がマルチターン遵守テストでトップ、平均指示減衰率は4.5%に低下

Winzheng Dynamic Contextual Decay(WDCD)ベンチマークは、AIモデルがマルチターン対話においてユーザーの指示への遵守がどのように低下するかを測定するもので、5つの実世界シナリオ(data_boundary、resource_limit、business_rule、security、engineering)における30問に対し、100%ルールベースのスコアリングとAIジャッジなしで評価を行います。2026年6月13日に実施されたRun #169では、テスト対象11モデルのラウンド1からラウンド3にかけての平均指示減衰率は4.5%となりました。

各ランは3つの構造化されたラウンドで構成されます。R1では指示の確認を確立し、R2では2000〜5000ワードの専門文書を妨害要素として挿入し耐性をテスト、R3では最終的な制約整合性チェックを実施します。R1とR3の差がマルチターン遵守の安定性を定量化します。

Run #169 上位3モデル:

  • Grok 4 — 74.2ポイント(減衰率:-25.8%)
  • Qwen3 Max — 67.2ポイント(減衰率:-12.4%)
  • Gemini 2.5 Pro — 66.4ポイント(減衰率:-3%)

Grok 4は-25.8%という顕著な減衰曲線を示しながらもトップスコアを獲得しており、R1・R2では高いパフォーマンスを発揮したものの、R3にかけて一部が低下したことを示しています。Gemini 2.5 Proはわずか-3%と、上位3モデルの中で最も安定した推移を記録しました。Qwen3 Maxは総合スコアと減衰耐性のバランスをとり、2位を獲得しました。

減衰パターンの観察:クロスモデル平均4.5%という数値は、個別モデル間の大きなばらつきを覆い隠しています。分布の下位では、GPT-o3が今回のランで最も深刻な指示減衰を示し-75%を記録し、R2での妨害要素への露出およびR3での整合性チェック後に元の制約が大幅に損なわれたことを示しています。対照的に、豆包 Pro (Doubao Pro)は減衰率の高いグループの中で最も強い減衰耐性プロファイルを示し、相対測定で-58%を記録、ラウンドをまたいで比較的高い制約維持を実証しました。

Run #169における最良と最悪の減衰結果の差は、WDCDで繰り返し確認されている知見を裏付けています。すなわち、単一ターンの能力スコアはマルチターンの遵守行動を確実に予測するものではありません。R1で競争力のあるスコアを出したモデルでも、専門文書の妨害要素が導入されると制約への忠実度が大幅に低下する可能性があります。

シナリオカバレッジは過去のランと一貫しており、データ境界の遵守、リソース制限の遵守、ビジネスルールのコンプライアンス、セキュリティ制約、エンジニアリング仕様の5分野を網羅し、すべてルールベースの基準に対して決定論的にスコアリングされています。

完全な方法論およびラウンドごとのスコアリングルールは、https://www.winzheng.com/yz-index/methodologyに文書化されています。

モデルごとのR1/R2/R3内訳を含むRun #169の構造化データは、WDCD データAPIにてご利用いただけます:https://www.winzheng.com/yz-index/api/v1/dcd