GPT-5.5がコード実行満点86.95点でSmokeベンチマーク首位、制約面の弱点も露呈

2026年7月3日のSmoke軽量評価において、GPT-5.5は主ランキング86.95点で第1位を獲得した。コード実行100点・素材制約71点という組み合わせが、この結果を直接決定づけた。

実行と制約の構造的差異

スコア算出式はcore_overall = 0.55 × コード実行 + 0.45 × 素材制約であり、実行の重みがより高いため、GPT-5.5の満点実行が勝利の鍵となった。Claude Sonnet 4.6はコード実行99.3点・制約70点で主ランキング86.12点となり、同様に実行面の優位性に依存している。Claude Opus 4.7もコード実行は100点だが、制約はわずか67.4点にとどまり、主ランキング85.33点でGPT-5.5に約1.62点差をつけられた。

Qwen3 Maxはコード実行96.3点・制約71点で主ランキング84.92点となり、上位3モデルとの間に明確な差が生じた。Grok 4はコード実行92.1点・制約63.3点で主ランキング79.14点となり、制約面の弱さが総合評価を押し下げた。

実行より制約が高いモデル

豆包 Proはコード実行75点・制約81.7点で主ランキング78.02点となり、上位6モデルの中で唯一制約が実行を上回った。Gemini 2.5 Proはコード実行74.3点・制約75点で主ランキング74.62点と、両次元が接近している。Gemini 3.1 Proはコード実行わずか50点だが制約81.7点で主ランキング64.27点となり、制約だけではランキング上昇に限界があることを示した。

DeepSeek V4 Proはコード実行50点・制約70点で主ランキング59点。文心一言 4.5はコード実行・制約ともに0点で主ランキング0点、誠実性評価はfailとなり、有効ランキングに入らなかった。

モデルの特性に関する考察

コード実行満点を達成したGPT-5.5とClaude Opus 4.7は、コード実行次元で上限に達しているものの、制約次元はいずれも71点を超えておらず、素材制約が現行モデルに共通する弱点であることが反映されている。豆包 Proの制約81.7点は11モデル中最高であり、素材制約タスクにおける相対的な優位性を示している。

全体として上位5モデルのコード実行スコアはすべて92.1点以上であるのに対し、下位5モデルは75点以下となっており、実行次元が主ランキングの順位を決定づける役割は明白である。

実行主導の構図において、制約面の弱点が到達できる水準の上限を決定する。

データ出典:YZ Index | Run #210 | 元データを見る