Gemini 3.1 Pro が98.47点で首位に、Claude の実行スコアが27.2点急落し72.8点のみに

YZ Index 2026年6月30日 Smoke 軽量評価において、Gemini 3.1 Pro は主榜98.47点(コード実行100点、素材制約96.6点)で首位を獲得した。

今回の評価は11モデルを対象とし、core_overall は 0.55×コード実行 + 0.45×素材制約 の加重平均で算出される。Gemini 3.1 Pro と Grok 4 はいずれも実行満点の100点を獲得したが、Grok 4 の制約スコアは95.5点にとどまったため、主榜では0.49点差で2位となった。

実行スコアと制約スコアの構造的差異

DeepSeek V4 Pro は主榜96.65点で、実行94.8点・制約98.9点と制約面での優位が顕著であり、Gemini 3.1 Pro を2.3点上回っている。しかし実行スコアが5.2点低いため3位にとどまった。

GPT-o3 と GPT-5.5 の実行スコアはいずれも83.3点で、制約スコアはそれぞれ98.9点と94.3点。前者の主榜スコアが2.07点高く、制約面の4.6点差が順位を直接左右していることが示された。

複数モデルで実行スコアが一斉に下落

前日比較では、Claude Opus 4.7 の実行スコアが27.2点下落して72.8点となり、主榜は16点下落。Claude Sonnet 4.6 の実行スコアは25点下落して75点となり、主榜は15.3点下落。Qwen3 Max の実行スコアは12.7点下落して75点となり、主榜は9.1点下落。Gemini 2.5 Pro の実行スコアは21.9点下落して53.1点となり、主榜は13.6点下落した。

文心一言 4.5 は実行スコアが14.6点下落して75点、制約スコアが20.2点下落して66.3点となり、主榜は17.1点下落と、本日最大の下落幅を記録したモデルとなった。

異常シグナルの分析

Claude の2モデルで実行スコアが同時に25点以上下落した一方、制約スコアはそれぞれ97.7点と91.7点を維持しており、素材制約能力への影響はなく、問題がコード実行の一貫性に集中していることを示している。

Gemini 2.5 Pro の制約スコアは依然96.6点と Gemini 3.1 Pro と同水準だが、実行スコアはわずか53.1点にとどまり、主榜を25.79点押し下げ、実行面の弱点が露呈した。

DeepSeek V4 Pro は実行スコアが95点を下回りながらトップ3に入った唯一のモデルであり、98.9点の制約スコアが実行面の差を補った形となった。

本日のデータによれば、実行スコア100点のモデルが主榜上位2位を占め、実行スコア75点未満のモデルはすべてトップ5から脱落した。制約スコア98.9点の GPT-o3 と DeepSeek V4 Pro がそれぞれ4位と3位となり、制約面の高スコアが実行中位の場合でも順位バッファーとして機能することが証明された。

実行面の変動が Smoke 軽量榜を塗り替えつつあり、制約面が安定したモデルがその恩恵を受けている。

次回の Smoke 評価では、今回の実行スコア下落が継続するかどうかが検証される。


データ出典:Winzheng (YZ Index) | Run #205 | 元データを見る