WDCD Run #171:11モデルの平均指示崩壊率が-37.9%を記録、Qwen3 Maxが急落にもかかわらずトップを維持

WDCD Run #171:11モデルの平均指示崩壊率が-37.9%を記録、Qwen3 Maxが急落にもかかわらずトップを維持

Winzheng Dynamic Contextual Decay(WDCD)ベンチマークは、マルチターン対話においてAIモデルがユーザー指示へのコミットメントをどのように劣化させるかを測定するもので、AIによる評価を一切使用せず、100%ルールベースのスコアリングを採用している。2026年6月14日実施のRun #171では、data_boundary(データ境界)、resource_limit(リソース制限)、business_rule(ビジネスルール)、security(セキュリティ)、engineering(エンジニアリング)の5つの実世界シナリオにわたる30問において11モデルが評価され、ラウンド1からラウンド3にかけての平均指示崩壊率は-37.9%となった。

各WDCDランは固定の3ラウンドプロトコルに従う。R1は初期指示の受容度を測定し、R2はモデルが2,000〜5,000語の専門文書を処理した後の妨害抵抗性をテストし、R3は最終的な制約整合性チェックを実施する。R1とR3の差がマルチターンにおけるコミットメント損失を定量化する。

Run #171のトップパフォーマー:

  • Qwen3 Max — 84.4点、-59%崩壊
  • Grok 4 — 82.0点、-44%崩壊
  • Gemini 3.1 Pro — 79.7点、-47%崩壊

Qwen3 Maxは、今回の評価グループの中でも比較的急な崩壊曲線を示しながらも最高スコアを維持しており、これはR1のベースラインスコアが十分に高く、後半ラウンドでの大幅な制約損失を吸収できたことを示している。Grok 4とGemini 3.1 Proはいずれもトップよりも緩やかな崩壊を示しつつ、最高スコアとの差も数点以内に収まった。

崩壊の分布:今回のランで最も小さい崩壊を記録したのはGPT-o3で-16%であり、全モデルの中で最も強い崩壊耐性を示した。一方、最も崩壊耐性が低かったのは豆包 Pro (Doubao Pro)で、-112.7%を記録した。これはR3のコミットメントスコアがR1のベースラインを上回る幅で低下したことを意味し、部分的な忘却ではなく、妨害要素への露出後に制約が逆転するパターンと一般的に関連している。

-37.9%というグループ平均は、WDCDの繰り返し確認されている知見を裏付けている。指示崩壊は主にモデルのサイズや表面的なスコアの関数ではなく、対話の途中で長い専門文書が挿入された際に制約状態がどれだけ保持されるかに依存する。R1の受容度が高いモデルであっても、R3までに遵守率の半分以上を失う場合があり、一方でR1スコアが控えめなモデルが制約をより安定して維持する場合もある。

Run #171は、生スコアによるランキングとマルチターンのコミットメント安定性によるランキングが異なるリーダーボードをもたらすことを改めて示している。GPT-o3の-16%という崩壊率は、総合スコアのトップ3には入らないながらも、今回のランで最も安定したモデルとしての位置付けを与えている。

詳細な方法論:https://www.winzheng.com/yz-index/methodology
機械可読データ:https://www.winzheng.com/yz-index/api/v1/dcd