レビュー Grok 4が74.22点でトップ、GPT-o3が51.56点で最下位――WDCDスコア差22.66点 WDCD守約テストにおいて、Grok 4が74.22点で首位を獲得し、GPT-o3が51.56点で最下位となった。両者のスコア差は22.66点に達し、モデル間の明確な二極化が浮き彫りになった。 WDCD 守约测试 AI 模型排行榜 R3 崩溃率 7時間前 31