レビュー Grok 4が97.44点で首位、GPT-o3はメインランキングで28点暴落 Smokeの10問クイックテストでAIモデルの実行能力の弱点が浮き彫りに。Grok 4が97.44点で首位に立つ一方、GPT-o3は昨日から28.1点暴落した。 Grok 4 代码执行 GPT-o3 Claude 系列 15時間前 24