YZ Index 2026年7月4日の11モデルを対象としたSmoke軽量評価において、Gemini 2.5 Pro が主榜96.99点(コード実行100点、素材制約93.3点)で首位となり、Qwen3 Max の主榜スコアは12.9点急落して72.02点となった。
実行と制約における構造的分化
本日の上位3モデルであるGemini 2.5 Pro、Grok 4、Claude Opus 4.7に共通する特徴は、コード実行スコアがいずれも97点以上であり、素材制約スコアがすべて93.3点で一致している点だ。Gemini 2.5 Pro は実行満点と制約93.3点の組み合わせにより、core_overallの計算式(0.55×100+0.45×93.3)で96.99点を達成した。Grok 4 は実行99.2点・制約93.3点という構成でGemini との差はわずか0.44点にとどまり、両者は素材制約において並列優位を形成していることが示された。
DeepSeek V4 Pro は実行80.3点と制約80.1点が最も近接しており、構造的にはバランスが取れているものの絶対スコアが低く、主榜は80.21点にとどまった。Qwen3 Max は実行69.5点・制約75.1点という組み合わせが榜単中では中下位に位置し、12.9点急落後はトップ5との差がさらに拡大した。
1日の上昇幅の背景にある各次元の寄与
GPT-o3 の主榜は24点上昇し、実行が24.5点、制約が23.4点それぞれ貢献しており、両次元が同期して向上した。Gemini 2.5 Pro の22.4点上昇のうち、実行の上昇幅25.7点が制約の18.3点を上回っており、本日は実行能力の改善がより顕著であったことを示している。DeepSeek V4 Pro は実行が1日で30.3点上昇した一方、制約の上昇はわずか10.1点にとどまり、実行端の改善が主榜21.2点上昇の主要因となった。
Grok 4 の制約上昇幅30点は実行の7.1点を大きく上回り、素材制約の急速な回復が主榜17.4点上昇をもたらした。豆包 Pro は実行が22点上昇した一方、制約はわずか6.6点の上昇にとどまり、構造的に実行端主導の傾向が強い。
異常シグナルと考えられる原因
Qwen3 Max の主榜12.9点急落は本日唯一の明確な負の異常であり、実行・制約ともに低下が見られた。榜単においてGLM-4.6 は全次元でゼロを記録しており、当日の評価で有効な結果が返されなかった可能性がある。Claude Sonnet 4.6 は実行97点を記録したものの制約はわずか60.1点にとどまり、実行と制約の大きな乖離により主榜スコアは80.4点に停滞した。
実行端が制約端を全般的に上回ることは、本日の11モデルに共通する傾向であり、DeepSeek V4 Pro を除くすべてのモデルで実行が制約を10点以上上回っている。Gemini 2.5 Pro と Grok 4 が制約端で並んでトップに立っていることが、本日の順位を決定づける要因となった可能性がある。
実行満点と制約並列1位の組み合わせは、Smoke軽量榜の第一梯団における標準的な条件となりつつある。
データ出典:Winzheng (YZ Index) | Run #213 | 生データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接