Smoke日報:GPT-5.5が92.58点でトップ獲得、素材制約19点差が勝負を決定

Smokeの今日未明のデータが公開され、最も直接的な結論が目の前に提示された:コード実行はもはや分水嶺ではなく、素材制約こそが真の戦場となった。

満点執行に隠された真の差

上位9モデルのコード実行は全て100点を獲得しており、これは10問の快速テストにおいて、モデルが基本的に実行可能なコードを完成できることを意味する。順位を真に決定するのは、素材制約の項目である。GPT-5.5は83.5点を獲得したのに対し、文心一言4.5は64.3点にとどまり、19.2点の差がついた。0.45の重み付けで拡大された結果、主榜では36点以上の総合スコア差を直接的に生み出している。

この構図は偶然ではない。過去半年、主流モデルのコード能力は急速に収束し、実行問題は「合格問題」と化した。現在競われているのは、モデルが外部素材を引用する際に捏造しないか、制約条件を無視しないか、暴露すべきでない情報をコードコメントに書き込まないかという点である。

上位5位はほぼ団子状態

GPT-5.5、豆包Pro、Claude Opus 4.7、Gemini 3.1 Pro、Claude Sonnet 4.6の5社は、主榜のスコア差が2.5点未満となっている。豆包Proが2位に入れたのは82.3点という制約スコアによるもので、中国語素材処理におけるその優位性を証明している。Claude Opus 4.7は制約81点とやや低いものの、全体としては3位を堅持しており、エンジニアリング判断(サイドランキング、AI補助評価)における蓄積が依然として機能していることを示している。

一方、GPT-o3と文心一言4.5の実行スコアは50点にまで落ち込んでおり、快速テストのコード問題で通過できないエラーが発生していることを示す。この2社は現在、素材制約でかろうじて合格ラインを維持している状態だ。

業界シグナル:制約能力が価値付けされている

今日のデータから見ると、制約スコアが1点上がるごとに、主榜への貢献は0.45点となる。一方、実行は天井に近づいており、実行能力をさらに積み上げて得られる限界収益は、制約を積み上げる場合よりはるかに低い。今後3ヶ月で、各研究所はより多くのRLHFリソースを「コードをより速く書く」ことではなく「素材使用のコンプライアンス」へとシフトさせると予想される。

異常な変動がないことも、もう一つのことを示している:現在のモデル能力分布は相対的に固定化されており、短期的にダークホースが上位5位を直接覆す事態は起こらないだろう。

素材制約のスコアが1点劣るごとに、モデルは実際の運用シーンで「使えない」リスクを1点分多く抱えることになる。

データソース:YZ Index (赢政指数) | Run #155 | 元データを見る