WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ

Winzheng Dynamic Contextual Decay (WDCD)ベンチマークは、AIモデルがマルチターン対話を通じてユーザーの命令をどれだけ確実に保持できるかを、100%ルールベースのスコアリングとAIジャッジゼロで測定するものです。Run #146(2026-06-03)では、11のモデルがdata_boundary、resource_limit、business_rule、security、engineeringという5つの実世界シナリオにまたがる30問で評価され、ラウンド1からラウンド3にかけて平均命令減衰率24.7%を記録しました。

各WDCDのRunは固定された3ラウンド構造に従います:R1で命令の認識を確立し、R2では2,000~5,000語の専門的なディストラクター文書を挿入して耐性をテストし、R3で最終的な制約整合性チェックを実施します。この設計により、多くのベンチマークが混同しがちなマルチターンコミットメントを、シングルターンコンプライアンスから分離して評価できます。

リーダーボード首位。3つのモデルが70点、減衰率-10%で首位タイとなりました:

  • Claude Opus 4.7 — 70点、減衰率-10%
  • GPT-5.5 — 70点、減衰率-10%
  • GPT-o3 — 70点、減衰率-10%

首位での3者タイは注目に値します:3つのフロンティアモデルすべてがR1コミットメントの同じ割合をR3まで保持しており、WDCDのディストラクター圧力下における命令追従アーキテクチャの天井が収束しつつあることを示唆しています。

減衰耐性リーダー。絶対スコアでは首位ではないものの、豆包 Proは今回のRunで最高の減衰耐性-0%を記録しました。これはラウンド3のコミットメントレベルがラウンド1と完全に一致したことを意味します。これがRun #146で際立った構造的結果です:初期のコンプライアンスがトップ層より低くても、ディストラクター負荷下でも後退しないモデルということです。

最悪の減衰。対極では、Grok 4-50%の減衰を記録し、ラウンド3までに初期コミットメントの半分を失いました。これは今回のRunにおける11モデル中、R1の認識とR3の整合性の間で記録された最大のギャップであり、フリート平均24.7%の大きな割合を押し上げる要因となりました。

パターンの総括。Run #146は、WDCDで繰り返し観察される事実を再確認させます:命令減衰はベンダー間で均一ではありません。すべてのモデルに同一のプロンプト、同一のディストラクター文書、同一のルールベース採点が与えられたにもかかわらず、最良(-0%)と最悪(-50%)の減衰耐性の差は50パーセントポイントにも及びます。R2の長文の専門的文書は、弱いマルチターンコミットメントを暴き出す最も信頼できるストレッサーであり続けています。

詳細な方法論:https://www.winzheng.com/yz-index/methodology

生のRunデータ(JSON):https://www.winzheng.com/yz-index/api/v1/dcd