Winzheng動的コンテキスト減衰(WDCD)ベンチマークは、AIモデルがマルチターン対話においてユーザー指示をどれだけ確実に保持できるかを測定します。Run #120(2026-05-17)では11モデルが評価され、ラウンド1からラウンド3にかけて平均35.2%のコミットメント減衰が確認されました。これは、指示減衰が現在のフロンティアシステムにおける構造的な弱点として残存していることを裏付けています。
WDCDは3つの連続するラウンドを実行します:R1で指示の認識を確立し、R2では2000~5000語の専門文書を妨害要素として挿入して抵抗力をテストし、R3で最終的な制約整合性チェックを実施します。スコアリングは100%ルールベースでAI判定者を一切使用せず、データ境界、リソース制限、ビジネスルール、セキュリティ、エンジニアリングという5つの実世界シナリオにまたがる30問から導出されます。
Run #120のトップ3結果:
- GPT-5.5 — 71.7点、減衰率-13%
- Qwen3 Max — 67.5点、減衰率-14.4%
- Claude Opus 4.7 — 66.7点、減衰率-20%
GPT-5.5はトップ層において絶対スコアと減衰耐性の両方でリード位置を維持しました。Qwen3 Maxはリーダーから4.2点差の範囲内に位置し、同等の減衰曲線を示しました。Claude Opus 4.7は-20%のより急な低下にもかかわらず3位を維持し、強力なR1性能がR3の保持力の弱さで部分的に相殺されていることを示しています。
減衰分布のハイライト:
- 最高の減衰耐性:豆包 Proが-10%で、今回のRunで減衰を一桁に近い領域に抑えた唯一のモデル。
- 最悪の減衰:Grok 4が-87%で、妨害要素の圧力下でラウンド3までにマルチターンコミットメントがほぼ完全に崩壊することを示しています。
最も耐性のあるモデルと最も耐性のないモデルとの差は-10%(豆包 Pro)から-87%(Grok 4)まで広がっており、見出し的なR1能力がR3の整合性を予測しないことを示しています。ランキング中位の複数のモデルはR1で有能な指示認識を示しましたが、R2で長文の専門文書が導入されると制約を維持できず、これは以前のWDCD Runで観察された幅広いパターンと一致しています。
Run #120における35.2%の平均減衰は、シングルターンの指示追従ではなくマルチターンのコミットメントこそが、本番運用型ワークフローにおけるモデル信頼性を評価する識別軸として残っていることを改めて示しています。R1で同等のスコアを獲得したモデルが、R3までに70パーセンテージポイント以上乖離する可能性があります。
完全な方法論:https://www.winzheng.com/yz-index/methodology
構造化データAPI:https://www.winzheng.com/yz-index/api/v1/dcd
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接