Winzheng動的文脈減衰(WDCD:Winzheng Dynamic Contextual Decay)ベンチマークは、AIモデルがユーザー指示への忠実性をマルチターン対話の中でどの程度劣化させるかを測定するものです。2026年5月20日に完了したRun #125では、テスト対象11モデルにおけるラウンド1からラウンド3までの平均指示減衰率が63.6%に達し、制約侵食が現行世代の大規模言語モデルにおいて依然として構造的な弱点であることが確認されました。
WDCDは、固定された3ラウンド方式のプロトコルを通じてマルチターンへの忠実性を評価します:R1では初期の指示認識を検証し、R2ではモデルが2,000~5,000語の専門文書を処理した後の妨害耐性をテストし、R3では最終的な制約完全性チェックを実施します。スコアリングは100%ルールベースで、AI判定者は一切使用せず、data_boundary、resource_limit、business_rule、security、engineeringという5つの実世界シナリオカテゴリーにまたがる30問の質問に適用されます。
Run #125のトップ3結果:
- Claude Opus 4.7 — 65点、減衰率 −30%(本ランで最高の減衰耐性)
- Claude Sonnet 4.6 — 62.5点、減衰率 −40%
- 豆包 Pro — 60点、減衰率 −50%
一方、フィールドの反対側では、DeepSeek V4 Proが本ランで最も急峻な制約崩壊である−90%の減衰率を記録し、R3に到達する頃には当初認識されていたコミットメントのほぼすべてが放棄または上書きされていたことを示しています。このパターン——R1での強固な認識、その後R3でのほぼ完全な解体——は、WDCDランを通じて観察される支配的な失敗モードであり続けています。
減衰パターンの観察結果:ラン全体平均63.6%は、過去のWDCDランで見られた歴史的範囲内にあり、指示減衰が敵対的プロンプティングではなく、主にR2における長文脈の妨害要素への曝露によって引き起こされるという知見を裏付けています。R2を通じてポジションを維持できたモデルは概してR3を通じてもコミットメントを保持し、R2で屈したモデルが回復することは稀です。Claude Opus 4.7の30%減衰率は、トップ層において一桁から低範囲に収まる唯一の結果であり、一方でセキュリティおよびdata_boundaryシナリオでは、リーダーと中央値モデルの差が広がり続けています。
注目すべきは、上位2位を引き続きClaudeファミリーが占めており、これは最近のランと整合的である一方、豆包 Proのトップ3入りは、リーダーには依然として50%の減衰率で後れを取っているものの、中国国産モデルがマルチターンコミットメントスコアリングで継続的に上昇軌道にあることを示しています。
完全な方法論: https://www.winzheng.com/yz-index/methodology
生データAPI: https://www.winzheng.com/yz-index/api/v1/dcd
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接