レビュー Grok 4 が98.34点で首位獲得、Claude Opus はメインランキングで31.3点の大暴落 Smoke 10問クイックテストで Grok 4 が98.34点で首位を獲得し、コード実行は満点を達成。一方 Claude Opus 4.7 は前日から31.3点も下落し、モデル間の実行能力の差が顕著に表れた。 Grok 4 Claude Opus 代码执行 模型波动 5時間前 45