约束维度に関するAIニュース | Winzheng AI ニュース

GPT-5.5がコード実行満点86.95点でSmokeベンチマーク首位、制約面の弱点も露呈

2026年7月3日のSmoke軽量評価において、GPT-5.5がコード実行100点・素材制約71点の組み合わせで主ランキング86.95点を獲得し首位に立った。一方で、素材制約が現行モデル全般の共通課題であることも明らかになった。