レビュー GPT-5.5の実行スコアが50に急落、Gemini 3.1 Proは総合ランキングで28.3点減 2026年6月20日のSmoke軽量評価において、GPT-5.5の総合スコアが93点から72.5点に急落し、実行スコアが100点から50点へと半減した。Gemini 3.1 ProやGemini 2.5 Pro、文心一言4.5も同様に実行ス GPT-5.5 代码执行 Smoke评测 执行约束失衡 14時間前 38