Gemini 3.1 Pro が96.96点でわずかにリード、Claude Opus 4.7との差はわずか0.13点

2026年6月12日 419 約3分 Winzheng Index

Gemini 3.1 Pro 材料约束 Smoke 轻量评测代码执行差距模型稳定性

本日のSmoke速報テスト結果によると、Gemini 3.1 Pro はcore_overall 96.96点で第1位を獲得し、Claude Opus 4.7 は96.83点でそれに続き、両者の差はわずか0.13点となっている。

1位・2位の両モデルはコード実行ディメンションでともに97.5点を獲得した。素材制約では Gemini 3.1 Pro が96.3点、Claude Opus 4.7 は96.0点となっている。「0.55×実行 + 0.45×制約」という重み付け設計により、わずかな制約の差が最終順位を直接決定した。

この0.13点というわずかな差は、トップクラスのモデルがこの2つのコアディメンションにおいて「同水準の競争」段階に突入していることを示している。

GPT-5.5 は実行スコア97点で第3位につけたものの、素材制約が86.3点にとどまったため、最終順位は第5位に落ちた。制約ディメンションで約10点の遅れをとっており、元の素材を引用しハルシネーションを回避する面での制御が Gemini や Claude より依然として劣ることを反映している。

比較すると、Grok 4 は実行96点・制約93.8点で総合95.01点となり、比較的バランスの取れた結果を維持した。

DeepSeek V4 Pro、Qwen3 Max、Gemini 2.5 Pro の実行スコアはいずれも65点以下にとどまり、トップとの差は30点以上に達した。Qwen3 Max の制約スコアは94.8点と GPT-5.5 を上回りながらも、実行スコアが55点であったため大きく引き離された。

これは改めて、現在の中国語モデルがコード実行タスクにおいて依然として体系的な弱点を抱えていることを裏付けている。

なお、本日は採点基準 v6.3 における初回の実行であり、これまでのスコアとは直接比較できない。前日比の変化は、今後の同一基準での評価から再開される。

実行と制約がともに満点に近づいた時、0.13点の差はもはや偶然ではなく、素材の境界に対するモデルの制御能力の真の差異を示している。

データ出典：YZ Index | Run #165 | 元データを見る

関連記事