Winzheng Dynamic Contextual Decay(WDCD)ベンチマークは、マルチターン対話においてAIモデルがユーザーの指示に対するコミットメントをどの程度維持できるかを測定するものです。2026年6月11日に完了したRun #164では、11のモデルが3ラウンドにわたって評価され、第1ラウンドから第3ラウンドにかけて平均-44.3%の指示減衰が記録されました。
WDCDの3ラウンドプロトコルは、指示の受諾(R1)、2,000〜5,000語の専門的なドキュメントを挿入した後の妨害要素への耐性(R2)、および最終的な制約の完全性(R3)をテストします。すべてのスコアリングは100%ルールベースであり、AIによる判定は一切使用されていません。30問の問題セットは、data_boundary(データ境界)、resource_limit(リソース制限)、business_rule(ビジネスルール)、security(セキュリティ)、engineering(エンジニアリング)の5つの実世界シナリオにわたります。
リーダーボード — トップ3:
- GPT-5.5 — 88.3点(減衰率:-67%)
- Gemini 3.1 Pro — 87.5点(減衰率:-60%)
- Claude Sonnet 4.6 — 83.3点(減衰率:-57.7%)
トップ3のモデルは最高の絶対スコアを記録しましたが、注目すべきことに、いずれも3つのラウンド間で大幅な減衰を示しました。これは過去のRunで見られたパターンを裏付けるものです:ピーク性能はマルチターンのコミットメントを保証しない。初期コンプライアンスが高いほど、R2で妨害ドキュメントが導入された際に低下する余地も大きくなる傾向があります。
減衰の極値:
- 最大減衰: GPT-o3が-24.7%を記録し、R1ベースラインが安定していたにもかかわらず、R3までに指示遵守が著しく低下したことを示しています。
- 最高の減衰耐性: 豆包 Proが-110%を記録し、今回のRunで最も高い耐性指標となりました。これはWDCDのスコアリング計算式において、R3の制約完全性がR1ベースラインを実際に上回ったことを意味します。
Run全体の平均-44.3%という結果は、過去のWDCDのRunから得られた構造的な知見を再確認するものです:指示減衰はテールリスク的な現象ではなく、現在のフロンティアモデルの基本的な特性です。長い専門的なドキュメントが会話の途中で導入されると、テスト対象モデルの大多数は、R1で明示的に受諾された制約であっても、部分的または完全に解除してしまいます。
過去のRunと比較すると、上位のモデルの相対的な順位は一貫していますが、生の能力スコアと減衰耐性スコアの差は拡大し続けています。これは、マルチターンのコミットメントが、シングルターンの能力の派生指標ではなく、独立した評価軸として浮上しつつあることを示唆しています。ベンチマーク精度に最適化されたモデルが、自動的に制約の持続性を持つわけではありません。
シナリオレベルの詳細、スコアリングルーブリック、およびR1/R2/R3プロトコルの完全な仕様については、WDCDメソドロジードキュメントをご参照ください:https://www.winzheng.com/yz-index/methodology
Runの生データはWDCDデータAPIから取得可能です:https://www.winzheng.com/yz-index/api/v1/dcd
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接