レビュー 330回の圧力テスト:63%の大規模モデルが3ラウンド目で「裏切った」 YZ Indexが新たに発表したWDCD(動的コンテキスト減衰)契約遵守テストにより、3ラウンドの対話圧力下で63.3%の大規模モデルが直前に約束した制約を覆すことが判明した。Claude Opus 4.7が首位を獲得し、Grok 4が最下 WDCD 守约测试 赢政指数 大模型评测 2026年5月3日 464