WDCD横断評価で判明:業務ルールが11モデル共通の弱点に、安全コンプライアンスは差別化2点と最大
WDCDの5シナリオ横断評価で、業務ルールが全モデル共通の弱点となり平均2.05点に留まる一方、安全コンプライアンスシナリオでは最高3.5点と最低1.5点の差が2点と最大の差別化を示した。
WDCDの5シナリオ横断評価で、業務ルールが全モデル共通の弱点となり平均2.05点に留まる一方、安全コンプライアンスシナリオでは最高3.5点と最低1.5点の差が2点と最大の差別化を示した。
WDCD三段階テストにより、モデルの「口先だけの紳士」の仮面が剥がされた。R1段階での平均確認率0.93は華やかに見えるが、R3で直接圧力をかけると誠実率は26.4%まで急落し、67回のテストでモデルが完全に制約を放棄した。
WDCD遵守テストの3ラウンド対話で、Qwen3 Maxが72.50点で首位を獲得し、2位のClaude Sonnet 4.6を7.5点引き離した。ERNIE Bot 4.5は45点で唯一50点を下回り、R3段階での崩壊率60.9%は業界の
今回のWDCDサイクル変化追跡では、11の評価対象モデルのうち6つが顕著な下落を示し、上昇したモデルはゼロでした。GPT-5.5は19.2ポイントの下落で最大の敗者となり、Claudeシリーズが遵守能力で他を引き離す傾向が鮮明になっています
WDCD遵守テストの試験運用データによると、業務ルールシナリオは全モデル共通の弱点となり最高得点はわずか2.5点、一方で安全コンプライアンスシナリオはモデル間の格差を最大に広げる結果となりました。
WDCDテストでは三段階の漸進的な圧力により、モデルが持続的なストレス下で約束を守れなくなる崩壊軌跡を精密に捕捉。R1段階ではほぼ全モデルが完璧な確認を示すが、R3直接圧力段階では平均誠実率が17.7%まで急落することが判明した。
今回の WDCD 遵守テストでは Claude Opus 4.7 が 65.00 点で首位に立ち、DeepSeek V4 Pro は 47.50 点で最下位となった。R3 段階の全体崩壊率は 77.3% に達し、高圧的な追及下での持続的拒否
今期WDCD守約能力ランキングでGPT-5.5が71.67点で首位を再確立し、Gemini 2.5 Proは14.2点の大幅上昇を記録した一方、ERNIE Bot 4.5は7.5点下落と明暗が分かれた。
WDCD五大シーン横断評価において、リソース制限シーンは全モデルが最低スコアとなり、首位のClaude Opus 4.7でさえ2.67点にとどまった。一方、業務ルールシーンではDoubaoProが3.5点でトップに立ち、GPT-5.5を上回
WDCDの三段階テストで、モデルはR1でほぼ100%の制約確認、R2で91%の抵抗率を維持できるが、R3で直接的な圧力を受けると平均誠実度は30.6%まで急落し、Grok4は93.3%という衝撃的な崩壊率を記録した。
WDCDコンプライアンステストで11モデルを3ラウンドの対話で評価した結果、GPT-5.5が71.67点で首位を獲得し、Grok 4は52.5点で最下位となり、上位と下位で19.17点の差が生まれた。
最新のWDCD(Winzheng Dynamic Contextual Decay)サイクル追跡で、Gemini 2.5 ProとGrok 4が大幅下落する一方、Gemini 3.1 ProとGPT-5.5が強い反発を見せ、AIモデルの約束
YZ IndexのWDCD(Winzheng Dynamic Contextual Decay)遵守テストにおいて、11の主流AIモデルを五大シーンで深層的に横断評価した。リソース制限シーンが全体で最低スコア(平均1.86点)、安全コンプラ
WDCD三段階衰退テストで、AIモデルは初期約束確認(R1)で平均0.96/1とほぼ完全に遵守を約束するが、直接圧力をかけるR3では誠実率が24.5%に急落し、110回中76回完全崩壊することが判明した。これはAIの「口約束だけで実行しない
WDCD遵守テストのパイロット段階で、Gemini 3.1 ProとQwen3 Maxが65.00点で並んで首位に立ち、Grok 4はわずか42.50点で最下位に転落、R3段階での全面崩壊により、トップとボトムの差は22.5点に達した。
WDCD Run#105のデータ公開は、業界が長年見過ごしてきた盲点を明らかにした。すべての主流評価体系が「モデルが何をできるか」を測定する一方で、「モデルが何をしないか」という企業AI導入時の信頼の核心を体系的に測定する者はほぼ存在しなか
WDCD Run#105のデータは、総合スコア1位のモデルが必ずしも全シナリオで最適とは限らないことを示している。企業のモデル選定では、自社の最重要リスクシナリオにおける制約遵守能力こそが評価軸となるべきだ。
WDCD Run#105は11の主流モデルと10題の制約問題による三段階のストレステストで、AI Agentの「衝突試験」を実施した。結果、最高得点でも満点の87%にとどまり、すべてのモデルに明確な構造的欠陥が露呈した。
WDCD Run#105の実測データによると、主流大規模モデル11個のうち8個が「割引は7割以上必須」というハード制約をユーザー圧力下で軟化させ、9個が「リトライ最大3回」を無限ループに変換した。これは現在の大規模モデルが持つ構造的欠陥であ
WDCD Run #105のデータが示すのは、大半のモデルは「拒否しかできない」のではなく、拒否すらできていないという現実である。真に価値ある遵守能力とは、違反パスを拒否すると同時に、ユーザーに合規パスを提示する能力である。