Claude Opus 4.7が94.82点で首位、Gemini 3.1 Proは32.2点急落

2026年7月1日のSmokeライト評価において、Claude Opus 4.7は94.82点でメインランキング首位に立ち、コード実行94.5点と素材制約95.2点がバランスの取れた構造を形成した。

上位3モデルの実行制約が高度に一致

Claude Opus 4.7とClaude Sonnet 4.6のコード実行はともに94.5点で、制約スコアはそれぞれ95.2点と94.8点、メインランキングの差はわずか0.18点にとどまった。DeepSeek V4 Proの実行も同じく94.5点だが、制約が93点であったため、メインランキングは93.83点となり、2位から0.81点差で後れを取った。

GPT-5.5は実行89.5点・制約91.2点、メインランキング90.27点で、制約が実行をわずかに上回る構造的特徴を示した。

高制約・低実行による顕著な二極化

Grok 4は制約100点の満点を記録したものの、実行はわずか68.6点にとどまり、メインランキングは82.73点となった。Gemini 2.5 Proは制約97点・実行64.5点でメインランキング79.13点。Qwen3 Maxは制約96点・実行64.5点でメインランキング78.68点となった。

豆包 Proは制約95.2点・実行44.5点でメインランキング67.32点。Gemini 3.1 Proは制約94.8点・実行43点でメインランキング66.31点。文心一言 4.5は制約95.2点・実行41.7点でメインランキング65.78点となった。

前日比での異常な変動

Gemini 3.1 Proはメインランキングで32.2点下落し、実行スコアは57点低下した。豆包 Proはメインランキングで18.6点下落、実行スコアは38.8点低下した。Grok 4はメインランキングで15.3点下落、実行スコアは31.4点低下した。

Claude Sonnet 4.6はメインランキングで12.1点上昇し、実行スコアは19.5点上昇した。Claude Opus 4.7はメインランキングで10.8点上昇し、実行スコアは21.7点上昇した。2つのClaudeモデルは実行スコアの回復により、上位2位の座を固めた。

構造的不均衡がもたらすランキング圧力

制約スコアが95点以上に近づく、あるいは達した場合、実行スコアがメインランキングの順位を左右する決定的な変数となる。実行スコアが65点を下回るモデルは、制約スコアが満点付近であっても、80点以下の区間にとどまるにすぎない。

文心一言 4.5の誠実性評価は「warn」であり、残りの10モデルはすべて「pass」となっており、大多数のモデルが素材制約の次元において基本的なコンプライアンスを維持していることが示された。

実行と制約の組み合わせバランスこそが、単一次元の満点ではなく、Smokeランキングの最終順位を決定する。

データ出典:YZ Index | Run #206 | 元データを見る