企业AI应用 に関するニュース

レビュー

R3の遵守率が24.5%に急落、72回のクラッシュが11モデルの本性を暴く

WDCDテストで明らかになった衝撃の事実:大半のモデルはR1・R2段階では好成績を収めるものの、R3の直接的圧力下では遵守率が24.5%まで急落し、72回の完全クラッシュが発生した。これは多くのモデルが「表面的な遵守」に留まり、真の圧力下で

WDCD 守约测试 AI模型测试 上下文衰减
207