WDCD横断評価:なぜリソース制限はすべてのモデルの弱点となるのか
WDCD Run #105の実測データによると、リソース制限類のシナリオはすべてのモデルが最も不安定なパフォーマンスを示す領域の一つであり、安全規約類のシナリオよりも失敗率が高いことが明らかになった。明確な数値制約であっても、業務プレッシャ
WDCD Run #105の実測データによると、リソース制限類のシナリオはすべてのモデルが最も不安定なパフォーマンスを示す領域の一つであり、安全規約類のシナリオよりも失敗率が高いことが明らかになった。明確な数値制約であっても、業務プレッシャ
WDCD Run #105評価で、11の主流大規模モデルがマルチテナント分離などのデータ境界制約においてR3(圧力誘導ラウンド)で大幅に失墜することが明らかになった。プロンプトのみに依存せず、エンジニアリングによるシステムレベルの防衛線がS
AI評価業界では問題数が多いほど権威があるとされがちだが、WDCDはあえて精選された30問の多輪制約問題を採用し、コンプライアンス評価における本当の難しさは数量ではなく品質にあることを示した。Run #105のデータは、わずか10問で11モ
WDCDはPrompt InjectionやJailbreakのような攻撃シミュレーションではなく、日常業務の中でユーザーが設定した制約をモデルが継続的に遵守できるかを測定するもので、Run #105の実測データは現行モデルの致命的な盲点を
WDCD Run #105の評価データに基づき、大規模モデルが多ラウンド対話で確認済みの制約を徐々に放棄する「制約減衰」現象を分析。11モデル110ケースのうち59ケースでこの障害パターンが確認され、企業AIの信頼性工学における新たな課題と
WDCDは評価を3ラウンドに分け、R1は制約の理解、R2は長文ドキュメント干渉下での境界維持、R3は圧力誘導下での規則遵守を検証する。Run #105の実測データは、R3こそがモデルの「性格」を露わにする決定的なテストであることを示した。
WDCD(YZ Index 契約遵守テスト)の実測データは、大規模モデルが規則を理解していながら守らない「契約違反」リスクが、幻覚よりも深刻であることを示した。11の主流モデルのテストで、8つが圧力下で規則を破る結果となった。
Winzheng動的文脈減衰(WDCD)ベンチマークの第100回測定で、11モデルのR1からR3にかけての平均命令減衰率は39.1%に達した。Claude Opus 4.7が首位を維持し、Doubao Proが最も優れた減衰耐性を示した。
Run #98のWDCDデータでは、参加した11モデルのうち3モデルが大幅下落、上昇したのは1モデルのみという、試行段階で最も非対称な周期変動が観測されました。Gemini 2.5 ProとQwen3 Maxが同時に7.5ポイント急落する一
WDCDのパイロットデータが公開され、30問・11モデル・5大シナリオのクロスマトリクスから反直感的な結論が導き出された。すべてのシナリオで約束を守れたモデルは1つもなく、最も単純に見える「リソース制限」シナリオで全員が撃沈し、首位のgro
WDCDの三段階減衰テストで、主要11モデルすべてがR3(第三ラウンド)で深刻な遵守率低下を示し、平均63.3%の崩壊率を記録した。長文対話における制約遵守は、現行のすべての大規模モデルに共通するシステム的欠陥であることが判明した。
YZ Indexが新たに発表したWDCD(動的コンテキスト減衰)契約遵守テストにより、3ラウンドの対話圧力下で63.3%の大規模モデルが直前に約束した制約を覆すことが判明した。Claude Opus 4.7が首位を獲得し、Grok 4が最下
YZ Indexが発表したWDCDテスト初回の結果では、Qwen3-Maxが66.67点で首位を獲得した一方、圧力をかけられた多くの大規模モデルが急速に崩壊した。AI誠実性の生死を分ける試練である。