Qwen3 Max が主榜で12.9点急落、Gemini 2.5 Pro が96.99点でSmoke軽量榜をリード

2026年7月4日 21 約4分 Winzheng Index

Gemini 2.5 Pro Qwen3 Max Smoke评测代码执行材料约束

YZ Index 2026年7月4日の11モデルを対象としたSmoke軽量評価において、Gemini 2.5 Pro が主榜96.99点（コード実行100点、素材制約93.3点）で首位となり、Qwen3 Max の主榜スコアは12.9点急落して72.02点となった。

実行と制約における構造的分化

本日の上位3モデルであるGemini 2.5 Pro、Grok 4、Claude Opus 4.7に共通する特徴は、コード実行スコアがいずれも97点以上であり、素材制約スコアがすべて93.3点で一致している点だ。Gemini 2.5 Pro は実行満点と制約93.3点の組み合わせにより、core_overallの計算式（0.55×100+0.45×93.3）で96.99点を達成した。Grok 4 は実行99.2点・制約93.3点という構成でGemini との差はわずか0.44点にとどまり、両者は素材制約において並列優位を形成していることが示された。

DeepSeek V4 Pro は実行80.3点と制約80.1点が最も近接しており、構造的にはバランスが取れているものの絶対スコアが低く、主榜は80.21点にとどまった。Qwen3 Max は実行69.5点・制約75.1点という組み合わせが榜単中では中下位に位置し、12.9点急落後はトップ5との差がさらに拡大した。

1日の上昇幅の背景にある各次元の寄与

GPT-o3 の主榜は24点上昇し、実行が24.5点、制約が23.4点それぞれ貢献しており、両次元が同期して向上した。Gemini 2.5 Pro の22.4点上昇のうち、実行の上昇幅25.7点が制約の18.3点を上回っており、本日は実行能力の改善がより顕著であったことを示している。DeepSeek V4 Pro は実行が1日で30.3点上昇した一方、制約の上昇はわずか10.1点にとどまり、実行端の改善が主榜21.2点上昇の主要因となった。

Grok 4 の制約上昇幅30点は実行の7.1点を大きく上回り、素材制約の急速な回復が主榜17.4点上昇をもたらした。豆包 Pro は実行が22点上昇した一方、制約はわずか6.6点の上昇にとどまり、構造的に実行端主導の傾向が強い。

異常シグナルと考えられる原因

Qwen3 Max の主榜12.9点急落は本日唯一の明確な負の異常であり、実行・制約ともに低下が見られた。榜単においてGLM-4.6 は全次元でゼロを記録しており、当日の評価で有効な結果が返されなかった可能性がある。Claude Sonnet 4.6 は実行97点を記録したものの制約はわずか60.1点にとどまり、実行と制約の大きな乖離により主榜スコアは80.4点に停滞した。

実行端が制約端を全般的に上回ることは、本日の11モデルに共通する傾向であり、DeepSeek V4 Pro を除くすべてのモデルで実行が制約を10点以上上回っている。Gemini 2.5 Pro と Grok 4 が制約端で並んでトップに立っていることが、本日の順位を決定づける要因となった可能性がある。

実行満点と制約並列1位の組み合わせは、Smoke軽量榜の第一梯団における標準的な条件となりつつある。

データ出典：Winzheng (YZ Index) | Run #213 | 生データを見る

Qwen3 Max が主榜で12.9点急落、Gemini 2.5 Pro が96.99点でSmoke軽量榜をリード

実行と制約における構造的分化

1日の上昇幅の背景にある各次元の寄与

異常シグナルと考えられる原因

関連記事