レビュー GPT-5.5が88.33点で首位、GPT-o3が61.67点で最下位——R3崩壊率22.1% WinzhengのWDCD守約テストにおいて、GPT-5.5が88.33点でトップに立ち、GPT-o3が61.67点で最下位に沈んだ。R3フェーズの全体崩壊率は22.1%に達し、現行大規模モデルが持続的な圧力下で抱える服従能力の課題が浮き彫 WDCD 守约测试 AI模型评测 约束遵守 12時間前 124