WDCD Run #135:Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に

WDCD Run #135:Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に

Winzheng Dynamic Contextual Decay (WDCD)ベンチマークは、大規模言語モデルがマルチターン対話においてユーザーの指示をどれだけ確実に保持できるかを測定するものです。2026-05-2711モデルを対象として実施されたRun #135では、ラウンド1からラウンド3にかけてのコミットメント減衰率が平均43.3%となり、指示減衰が現世代のフロンティアモデル全般における構造的な弱点であることが改めて確認されました。

WDCDは3つのラウンドを通じてマルチターン・コミットメントを評価します。ラウンド1では初期の指示確認を検証し、ラウンド2では2,000~5,000語の専門文書を通じてディストラクタコンテンツを導入し、ラウンド3では最終的な制約遵守の整合性チェックを実施します。スコアリングは100%ルールベースであり、AIジャッジは一切介在しません。30問の設問セットは、data_boundary、resource_limit、business_rule、security、engineeringの5つの実世界シナリオに及びます。

Run #135 トップ3:

  • Qwen3 Max — 72.5点、–10%減衰(本ランで最高の減衰耐性)
  • Claude Sonnet 4.6 — 65点、–30%減衰
  • DeepSeek V4 Pro — 62.5点、–40%減衰

Qwen3 Maxの10%という減衰値が注目されるのは、全体平均43.3%を大きく下回っており、ラウンド2でディストラクタ文書が注入された後でも、指示追従能力がほぼ無傷で維持されたことを示している点です。Claude Sonnet 4.6とDeepSeek V4 Proはより典型的なパターンを示しました:R1では強い初期確認を行い、R2でディストラクタ負荷の下で部分的な低下を見せ、R3までに測定可能な制約の浸食が生じました。

分布の対極では、Grok 4が–70%の減衰で本ラン最悪の結果を記録しました。これは、最終ラウンドまでに初期コミットメント強度の3分の1未満しか保持できなかったことを意味します。これは現コホートで観測された首位モデルと最下位モデル間の最大の格差を示しており、指示減衰がモデルファミリー間でいかに不均一に分布しているかを浮き彫りにしています。

Run #135ではより広範な2つのパターンが見られます。第一に、ラウンド1の素点は最終順位の予測指標としては不十分であり、R1で指示を明確に確認した複数のモデルが、R3までにコミットメントの半分以上を失いました。第二に、減衰耐性が初期能力よりも強力な差別化要因になりつつあります:Qwen3 Max(–10%)とGrok 4(–70%)の差は、R1の確認動作における両者の差よりも著しく大きくなっています。

方法論およびスコアリングルーブリックの詳細:https://www.winzheng.com/yz-index/methodology

機械可読なラン・データ:https://www.winzheng.com/yz-index/api/v1/dcd