本日のSmoke速報テスト結果によると、Gemini 3.1 Pro はcore_overall 96.96点で第1位を獲得し、Claude Opus 4.7 は96.83点でそれに続き、両者の差はわずか0.13点となっている。
トップモデル間の極限の接近
1位・2位の両モデルはコード実行ディメンションでともに97.5点を獲得した。素材制約では Gemini 3.1 Pro が96.3点、Claude Opus 4.7 は96.0点となっている。「0.55×実行 + 0.45×制約」という重み付け設計により、わずかな制約の差が最終順位を直接決定した。
この0.13点という差が複数日の連続テストで初めて現れたことは、トップクラスのモデルが「同水準の競争」段階に突入していることを示している。
GPT-5.5の明確な弱点
GPT-5.5 は実行スコア97点で第3位につけたものの、素材制約が86.3点にとどまったため、最終順位は第5位に落ちた。制約ディメンションで約10点の遅れをとっており、元の素材を引用しハルシネーションを回避する面での制御が Gemini や Claude より依然として劣ることを反映している。
比較すると、Grok 4 は実行96点・制約93.8点で総合95.01点となり、比較的バランスの取れた結果を維持した。
中位モデルにおける実行のボトルネック
DeepSeek V4 Pro、Qwen3 Max、Gemini 2.5 Pro の実行スコアはいずれも65点を下回り、トップとの差は30点以上に達した。Qwen3 Max の制約スコアは94.8点と GPT-5.5 を上回りながらも、実行スコアが55点であったため大きく引き離された。
これは改めて、現在の中国語モデルがコード実行タスクにおいて依然として体系的な弱点を抱えていることを裏付けている。
本日の全モデルは昨日との比較で顕著な変化はなく、安定性ディメンションにおいて異常な変動は見られなかった。
実行と制約がともに満点に近づいた時、0.13点の差はもはや偶然ではなく、素材の境界に対するモデルの制御能力の真の差異を示している。
データ出典:YZ Index | Run #165 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接