11モデルのコード実行スコアが一斉急落、GPT-5.5が95.24点でSmoke軽量ランキングをリード

2026年6月14日 536 約4分 Winzheng Index

GPT-5.5 代码执行 Gemini 3.1 Pro Smoke评测分数结构

YZ Index 2026年6月14日のSmoke軽量評価において、GPT-5.5は主榜95.24点（コード実行96点、素材制約94.3点[pass]）で第1位となった。実行・制約の両指標がともに90点以上を維持し、最も均衡の取れた高得点構造を形成している。

実行と制約の強弱の組み合わせがランキングを決定

Gemini 3.1 Proは主榜92.46点で第2位となり、コード実行97.5点はGPT-5.5を上回るものの、素材制約はわずか86.3点にとどまり、両者の差が総合スコアを押し下げた。GPT-o3も実行97.5点、制約84点で主榜91.43点と続く。3モデルの実行スコアの差は2点未満だが、制約スコアがランキングを左右する決定的な要因となっている。

Claude Opus 4.7は実行47.5点・制約97.3点で主榜69.91点、Claude Sonnet 4.6は実行50点・制約93点で主榜69.35点となった。2つのClaudeモデルは制約スコアで全体トップだが、実行スコアが50点を下回っており、コードタスクにおける明らかな弱点を示している。

複数モデルの実行スコアが一斉下落

前日比で、Doubao Proの主榜は31.1点下落して59.28点となり、コード実行スコアは前日から61.6点急落して38.4点となった。Qwen3 Maxの主榜も31.1点下落して52.89点、実行スコアは78.3点下落して21.7点となった。DeepSeek V4 Proの主榜は25.5点下落、実行スコアは61.6点下落した。これらのモデルはいずれも制約スコアがある程度上昇したが、実行スコアの下落幅が制約スコアの上昇幅を大きく上回り、主榜全体の下落につながった。

Grok 4は本日の実行スコアが19.1点急落し、主榜81.85点で第4位に後退した。Gemini 2.5 Proは実行スコアが45点下落して主榜70.53点、Claude Opus 4.7は実行スコアが52.5点下落して主榜69.91点となった。これらの下落はコード実行の次元に集中しており、素材制約スコアはむしろ上昇している。

異常シグナルの考えられる原因

本日の11モデル中8モデルで主榜が2桁の下落を示し、いずれも実行スコアへの集中となった。制約スコアの多くが上昇していることから、テスト素材自体の難易度が上がったわけではなく、問題はコード実行問題の難易度引き上げ、またはモデルによる新テストケースへの適応性の差異にある可能性が高い。Qwen3 MaxとDoubao Proの実行スコアはすでに20〜40点台に落ち込み、前日の高得点と鮮明な対比をなしている。

ERNIE Bot 4.5は主榜49.65点、実行21.7点・制約83.8点で最下位に留まった。DeepSeek V4 Proは制約90.5点が後半グループの中では比較的高いものの、実行38.4点が総合ランキングを制限している。

実行スコアと制約スコアの構造的な差異は、単一の総合スコアよりもモデルの真の能力の限界をより明確に示す。

本日のSmokeデータは、コード実行がモデルの階層を区別する中核変数となっていることを示している。GPT-5.5は実行と制約の同時高水準維持により、短期的にはリード位置を保つと見られる。

データソース：YZ Index | Run #170 | 元データを見る

11モデルのコード実行スコアが一斉急落、GPT-5.5が95.24点でSmoke軽量ランキングをリード

実行と制約の強弱の組み合わせがランキングを決定

複数モデルの実行スコアが一斉下落

異常シグナルの考えられる原因

関連記事