WDCD Run #100:11モデル平均の命令減衰率が39.1%に到達、Claude Opus 4.7が首位

Winzheng動的文脈減衰(WDCD)ベンチマークは、AIモデルがユーザー命令への遵守度を多ターン対話を通じてどの程度低下させるかを測定するものです。2026年5月3日に実施されたRun #100では、テスト対象11モデルの第1ラウンドから第3ラウンドにかけての平均命令減衰率は39.1%に達し、多ターンでの命令遵守がフロンティアモデルにおいても未解決の課題であることが改めて確認されました。

WDCDは3ラウンド構造を採用しています。R1で命令の認識を確立し、R2で2,000〜5,000語の専門文書を妨害要素として挿入し、R3で最終的な制約整合性チェックを実施します。全30問は5つの実世界シナリオ — data_boundary、resource_limit、business_rule、security、engineering — にまたがり、すべて決定論的ルールによって採点され、AI判定者は一切介在しません。

上位モデル

  • Claude Opus 4.7 — 67.5点、減衰率 −23%
  • GPT-o3 — 66.7点、減衰率 −33%
  • Claude Sonnet 4.6 — 63.3点、減衰率 −30%

Claude Opus 4.7は、最高の絶対スコアと今回のランの中で最も低い減衰率の一つを兼ね備えることで、首位の座を維持しました。GPT-o3はポイントでは僅差の2位でしたが、ラウンド間でより多くの低下を示しており、初期の命令遵守は強いものの、妨害負荷下での耐性は弱いことが示唆されました。

減衰パターン

今回のランでは、減衰耐性の最高値と最低値の差が拡大しました。豆包 Proはわずか−18.2%という最も強い耐性を記録し、絶対スコアのトップではなかったものの、減衰安定性軸においては西側のあらゆるフロンティアモデルを上回りました。一方、Grok 4はR1からR3にかけて−74%と大幅に低下し、Run #100における最悪値を記録しました。これは、R2で長文の専門文書が導入された後、初期の命令認識が持続的な制約遵守へとつながらなかったことを示しています。

全体として、命令減衰はR1の認識品質よりもR2の妨害耐性とより強く相関していました。R1で高得点を取ったものの、安定した文脈アンカリングを欠くモデルは、R3までにbusiness_ruleおよびdata_boundaryシナリオで逸脱する傾向がありました。一方、表面的なスコアは低くとも減衰曲線が緩やかなモデル(豆包 Proなど)は、最終ラウンドまでに差を大きく縮めました。

注目すべき動向

過去のランと比較すると、トップ3はClaudeおよびGPTファミリーのモデルが占め続けていますが、減衰耐性のリーダーボードは絶対スコアのリーダーボードからますます乖離しつつあります。これは、純粋な能力と多ターンでの命令遵守が、評価軸として分離可能になってきていることを示すシグナルです。

完全な方法論:https://www.winzheng.com/yz-index/methodology
構造化データAPI:https://www.winzheng.com/yz-index/api/v1/dcd