GPT-5.5 が素材制約71点でSmokeランキング首位に、コード満点後の後半戦で差が拡大

本日のSmoke軽量評価で最も直接的な発見は、コード実行能力はもはや上位7モデルの差別化要素ではなくなったということだ。すべてのモデルが100点を獲得し、順位は完全に素材制約スコアによって決定された。

満点実行下における真の順位ロジック

スコア計算式ではコード実行の重みが0.55、素材制約の重みが0.45となっている。現在の上位7モデルは実行で全員満点を取り、素材制約スコアは71点(GPT-5.5)から55点(DeepSeek V4 Pro)まで一気に下落し、メインランキングの差を直接生み出している。GPT-5.5 は71点の制約スコアで86.95点を獲得し首位に立った。2位の GPT-o3 は制約スコアがわずか66.8点で、約2点の差をつけられている。

この現象は、2026年の主流モデルがコード実行タスクにおいてすでに普遍的に高水準に達しており、次の段階の競争の焦点は、ユーザー指示およびコンテキストの厳格な遵守能力へと移行していることを示している。

下位モデルの致命的欠点

Claude Opus 4.7、<|eos|>


データ出典:YZ Index(赢政指数) | Run #143 | 元データを見る