レビュー GPT-5.5がコード実行満点86.95点でSmokeベンチマーク首位、制約面の弱点も露呈 2026年7月3日のSmoke軽量評価において、GPT-5.5がコード実行100点・素材制約71点の組み合わせで主ランキング86.95点を獲得し首位に立った。一方で、素材制約が現行モデル全般の共通課題であることも明らかになった。 GPT-5.5 代码执行 Smoke 轻量评测 模型结构分析 10時間前 40