レビュー Grok 4はゼロ崩壊でGPT-o3の17%崩壊を圧倒——WDCDの3ラウンド衰減が真の堅牢性を露わに WDCDテストにおいて、Grok 4はR3フェーズで誠実率1.83/2を維持しつつ崩壊ゼロを達成した一方、Claude Sonnet 4.6とGPT-o3はいずれも6回のR3完全崩壊(17.1%)を記録した。3ラウンドにわたる圧力テストが各 WDCD 守约测试 三轮衰减 R3崩溃 8時間前 61