WDCD Run #196:平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持

Winzheng Dynamic Contextual Decay(WDCD)ベンチマークは、マルチターン対話においてAIモデルがユーザーの指示にどの程度従い続けられるかを測定するものです。2026年6月24日に実施されたRun #196では、評価対象11モデルの指示崩壊率の平均がラウンド1からラウンド3にかけて-39.9%に達しました。

WDCDは3ラウンド構成を採用しています。R1では初期指示の理解確認を行い、R2では2,000〜5,000語の専門文書を注入した後の妨害耐性をテストし、R3では最終的な制約整合性チェックを実施します。採点はAI審査員を一切使用しない100%ルールベースで行われ、data_boundary(データ境界)、resource_limit(リソース制限)、business_rule(ビジネスルール)、security(セキュリティ)、engineering(エンジニアリング)の5つの実世界シナリオにわたる30問を対象としています。

Run #196 トップ3:

  • Qwen3 Max — 92.5点(崩壊率:-90%)
  • Gemini 3.1 Pro — 87.5点(崩壊率:-70%)
  • Grok 4 — 82.5点(崩壊率:-30%)

リーダーボードからは、絶対スコアと崩壊耐性の間に顕著なトレードオフが見られます。Qwen3 Maxは累積ポイントでトップを維持しましたが、-90%という崩壊曲線は、スコアの大部分がラウンド1に集中しており、妨害文書の投入や最終制約チェックの下で急激に性能が低下したことを示しています。Gemini 3.1 Proは同様の傾向を示しつつも-70%と若干緩やかな軌跡をたどった一方、Grok 4は-30%という比較的平坦なマルチターン維持性プロファイルを示しました。

崩壊率の極値:テストされた11モデルのうち、GPT-o3は低スコア群の中でR1ベースライン比-30%という最も悪い崩壊率を記録し、R3までに指示遵守能力の大部分を失ったことが示されました。一方、豆包 Pro (Doubao Pro)は今回のランで最も優れた崩壊耐性を示し、-166.7%という値を記録しました。WDCDの計算式においてこのネガティブ崩壊の読み取り値は、R1からR3にかけてモデルの制約遵守能力が実際に向上したことを示しており、これは初期ラウンドでのコミットメントが低いものの、コンテキストが完全に読み込まれると安定するモデルに典型的に見られる稀なパターンです。

首位のQwen3 Maxと3位のGrok 4のスコア差(10点)は、崩壊率の差(60パーセントポイント)と比べて小さく、WDCDが一貫して示している知見を裏付けています。すなわち、R1の高スコアはR3の整合性を予測しないということです。シングルターンの指示遵守に最適化されたモデルは、R2で専門文書レベルの妨害文書が導入されると依然として脆弱性を露呈し続けています。

詳細な方法論:https://www.winzheng.com/yz-index/methodology

生データAPI:https://www.winzheng.com/yz-index/api/v1/dcd