Gemini 3.1 Pro が82.97点で首位、実行スコア75点で2位との差を広げる

2026年7月2日 18 約5分 Winzheng Index

Gemini 3.1 Pro 代码执行材料约束 Smoke 评测模型结构差异

YZ Index 2026年7月2日の11モデルを対象としたSmoke軽量評価において、Gemini 3.1 Proは総合スコア82.97点（実行75点・素材制約92.7点）で当日1位を獲得し、豆包 Proは81.98点（実行75点・素材制約90.5点）で2位となった。両モデルの実行スコアは並んで最高値を記録した。

実行と制約のスコア構造の差異が順位を決定

総合スコアは「0.55×コード実行 + 0.45×素材制約」の式で算出される。Gemini 3.1 Proと豆包 Proは実行スコア75点により、計算式上で41.25点の実行貢献を得て、3位のClaude Opus 4.7（実行58.3点、実行貢献32.065点）に対して直接的なリードを築いた。Claude Opus 4.7の素材制約スコアは97点に達し、制約次元で43.65点を貢献しているが、実行スコアの弱さにより総合スコアは75.72点にとどまった。

DeepSeek V4 Proは実行61.1点・制約89.5点で総合73.88点、4位。GPT-o3は実行50点・制約93.5点で総合69.58点、5位。実行スコアが10点上昇するごとに総合スコアへの押し上げは約5.5点であるのに対し、制約スコアが10点上昇した場合の押し上げは4.5点にとどまることが示されており、当日の重み付けにおいて実行次元がより決定的な役割を果たしている。

前日比における実行スコアの下落幅分析

前日との比較において、Claude Sonnet 4.6の実行スコアは前日水準から44.5点下落し、総合スコアは25.4点低下した。GPT-5.5の実行スコアは39.5点下落し、総合スコアは22点低下した。DeepSeek V4 Proの実行スコアは33.4点下落し、総合スコアは20点低下した。これらの下落は実行貢献を直接押し下げ、総合順位の後退につながった。

Qwen3 Maxは実行スコアが31.2点・制約スコアが9.1点下落し、総合スコアは21.3点低下した。Gemini 2.5 Proは実行スコアが26.3点・制約スコアが13点下落し、総合スコアは20.3点低下した。実行スコアが下落したモデルのうち、Claude Sonnet 4.6とGPT-5.5の制約スコアは依然として92.7点と90.5点を維持しており、制約次元が相対的に安定している一方、実行次元が当日の順位を左右する主要変数となっていることが示されている。

高制約モデルにおける実行スコアの弱点

Claude Opus 4.7・GPT-o3・Claude Sonnet 4.6・GPT-5.5・Grok 4の制約スコアはいずれも91.7点以上であるが、実行スコアは47.9〜58.3点の範囲に集中している。これらのモデルは制約面での優位性を高い総合スコアに転換できておらず、Smoke 10問クイックテストにおいてコード実行タスクが最終順位に与える影響がより直接的であることを反映している。

最下位の文心一言 4.5は実行スコアがわずか20.8点で、制約86.9点にもかかわらず総合スコアは50.55点にとどまった。Qwen3 Maxは実行33.3点・制約86.9点で総合57.42点となった。低い実行スコアが総合スコアの上限を直接的に圧迫している。

当日は異常シグナルの記録はなく、実行スコアの下落は特定モデルへの当日問題の適合差異に起因する可能性があるが、データはスコアの変化のみを示しており、問題の詳細は提供されていない。

実行スコア75点のGemini 3.1 Proと豆包 Proは共に、素材制約スコア約90点がすでに合格ラインとなっており、コード実行スコアを10点積み上げることこそが総合順位を左右する決定的な増分であることを証明した。

データ出典：YZ Index | Run #208 | 元データを見る

Gemini 3.1 Pro が82.97点で首位、実行スコア75点で2位との差を広げる

実行と制約のスコア構造の差異が順位を決定

前日比における実行スコアの下落幅分析

高制約モデルにおける実行スコアの弱点

関連記事