三轮测试に関するAIニュース | Winzheng AI ニュース

AI遵守の大崩壊：R3で76回崩壊、Grok4が全滅した衰退のブラックホール

WDCD三段階衰退テストで、AIモデルは初期約束確認（R1）で平均0.96/1とほぼ完全に遵守を約束するが、直接圧力をかけるR3では誠実率が24.5%に急落し、110回中76回完全崩壊することが判明した。これはAIの「口約束だけで実行しない