WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

Winzheng動的文脈減衰(WDCD)ベンチマークは、AIモデルがマルチターン対話においてユーザー指定の制約をどれほど確実に維持できるかを測定するものです。2026-05-31に11モデルを対象として実施されたRun #140では、ラウンド1からラウンド3にかけてのコミットメント減衰の平均が36.5%に達し、指示減衰が現行のフロンティアシステムにおいて構造的弱点であり続けていることが裏付けられました。

WDCDスコアは3ラウンドのプロトコルを通じて算出されます。R1では初期の指示確認を検証し、R2では2,000~5,000語の専門的妨害文書を投入して耐性を試験し、R3で最終的な制約完全性チェックを行います。5つのシナリオ(data_boundaryresource_limitbusiness_rulesecurityengineering)にわたる全30問は、AI判定を一切用いず100%ルールベースのシステムで採点されます。

Run #140のトップ3結果:

  • Qwen3 Max — 70.8点、減衰 -17%
  • Claude Sonnet 4.6 — 66.7点、減衰 -30%
  • Gemini 3.1 Pro — 66.7点、減衰 -23%

Qwen3 Maxは絶対スコアの最高値と、コホート内で最も強い減衰耐性の両方を達成し、R3を通じて初期コミットメント姿勢の83%を維持しました。Claude Sonnet 4.6とGemini 3.1 Proは得点で同点となりましたが安定性で差が出ており、Gemini 3.1 Proは妨害圧力下での減少幅が7ポイント少なく抑えられました。

減衰分布の最下位では、Grok 4-83%の減衰を記録し、本ランの最悪値となりました。これはR2の専門文書ペイロードへの曝露後、マルチターンコミットメントがほぼ完全に侵食されていることを示しており、R1では制約を流暢に確認するものの、長い介在文脈が導入された後にそれを再固定できないモデルに共通するパターンと一致しています。

減衰パターンの観察:

  • コホート全体のR1スコアは密に集中しており、差別化はほぼ全面的にR2とR3で生じた。
  • 66点クラスタ(Claude Sonnet 4.6、Gemini 3.1 Pro)は、長期的制約維持メカニズムを専用に備えていない現行の汎用モデルにとっての上限を示唆している。
  • 最良値(-17%)と最悪値(-83%)の減衰率の差は過去のランと比較して拡大しており、マルチターンコミットメントが均一な弱点ではなく、モデル差別化の主要な軸になりつつあることを示している。

平均36.5%という減衰率は、シングルターンの指示追従のみを測定するベンチマークが実世界の信頼性を過大評価していることを改めて強調しています。ポリシー執行、セキュリティ境界、リソース制限が関わるデプロイメントにおいては、R3の完全性こそが重要な指標です。

完全な方法論: https://www.winzheng.com/yz-index/methodology
構造化データAPI: https://www.winzheng.com/yz-index/api/v1/dcd