WDCD Run #157:11モデルの平均指示劣化率が47.7%に到達、トップは3モデルが同点

Winzheng動的コンテキスト劣化(WDCD)ベンチマークは、AIモデルがユーザー指示に対するコミットメントをマルチターン対話の中でどのように劣化させるかを測定するもので、100%ルールベースのスコアリングを採用し、AI審査員を一切使用しません。2026-06-10に11モデルを対象に完了したRun #157では、Round 1からRound 3にかけてのコミットメント劣化の平均値が47.7%に達し、3モデルが同点で首位に並びました。

リーダーボード上位。3モデルがそれぞれ67.5点で並びました:

  • Claude Sonnet 4.6 — 67.5点、劣化率-30%
  • Gemini 2.5 Pro — 67.5点、劣化率-20%
  • Qwen3 Max — 67.5点、劣化率-30%

この3モデルの中で、Gemini 2.5 Proが最も強いマルチターンコミットメントを示し、Round 3までに初期制約遵守率の20%しか失っていません。Claude Sonnet 4.6とQwen3 MaxはRound 1の上限がやや高く、それを-30%という急な低下で相殺する形で同得点に到達しました。

劣化の両極。今回のRunで最も大きな差が出たのは、劣化パフォーマンスの最良と最悪の間でした:

  • 劣化最悪:Grok 4-90%を記録し、Round 2のディストラクター文書投入後にほぼすべての初期指示コミットメントが崩壊したことを意味します。
  • 劣化耐性最良:豆包 Pro-16.7%で、トップ3スコア圏には達しなかったものの、3ラウンドを通じて最も安定したモデルとなりました。

この乖離は、Round 1の素の承認品質が下流の安定性を予測しないことを浮き彫りにしています。モデルは制約をきれいに承認しても、Round 2で2000〜5000語の専門文書が投入されれば、それを失うことがあります。

WDCDの仕組み。各Runは3ラウンドで構成されます:R1は指示承認を検証し、R2は長文の専門文書がコンテキストに挿入された後のディストラクター耐性をテストし、R3は最終的な制約整合性チェックを実施します。30問のスイートは、data_boundaryresource_limitbusiness_rulesecurityengineeringの5つの実世界シナリオを網羅します。スコアリングは完全に決定論的かつルールベースです。

パターンに関する所見。11モデルにわたる47.7%という平均劣化率は、指示劣化がモデル固有の欠陥ではなく、構造的な弱点として残っていることを示しています。3つのフロンティアモデルが同一の67.5点という上限に集中していることも、決定論的ルールで評価した場合、現行のトップ層システムはマルチターンコミットメントにおいて類似の上限に当たることを示唆しています—差異は主にピークではなく、劣化の傾きに現れます。

完全な方法論:https://www.winzheng.com/yz-index/methodology
生データAPI:https://www.winzheng.com/yz-index/api/v1/dcd