Smoke評価:Qwen3 Max の制約スコアが+23点で逆転、GPT-o3の材料制約は15.2点急落

2026年6月19日のYZ Index Smoke軽量評価において、Gemini 3.1 Proは総合スコア99.28点、コード実行100点、材料制約98.4点で首位を獲得した。0.55×実行+0.45×制約という加重構造が、その二次元均衡優位性を際立たせている。

実行満点グループにおける制約スコアの分化

本日の11モデルのうち、Gemini 3.1 Pro、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Max、Gemini 2.5 Pro、Grok 4、GPT-o3、GPT-5.5、豆包Pro、Claude Sonnet 4.6の計10モデルがコード実行で100点満点を達成した。順位の差異はほぼ完全に材料制約によって決まっており、Gemini 3.1 Proの制約スコア98.4点は、2位のClaude Opus 4.7およびDeepSeek V4 Proとの間に2.53点の差をもたらした。

文心一言4.5は唯一実行が満点に達しなかったモデルであり、コード実行94.1点・材料制約92.2点・総合93.25点となった。実行面での弱点により上位6位以内には入れなかったが、制約スコアはGPT-o3の84.8点を上回っている。

前日比での大幅な変動

前日データとの比較では、Qwen3 Maxの材料制約スコアが23点向上し、総合スコアが約86.95点から97.35点に跳ね上がり、順位は4位まで上昇した。Grok 4は制約スコアが19.6点向上し、総合スコアが8.8点上昇して95.82点となった。両モデルとも実行100点を維持しており、制約側の1日での改善が直接的に順位上昇へと転化した。

逆方向の変動も同様に顕著だった。GPT-o3の材料制約スコアは15.2点下落し、総合スコアが6.8点低下して93.16点となった。豆包Proの制約スコアは15.9点下落し、総合スコアが7.2点低下して92.85点となった。Claude Sonnet 4.6の制約スコアは14点下落し、総合スコアが6.3点低下して92.53点となった。

異常シグナルの構造的解釈

GPT-o3と豆包Proの制約スコア急落は、実行スコアが100点を維持したまま発生しており、問題が材料制約の環節に集中していることを示している。0.45という重みにより、制約スコアが約15点低下するごとに総合スコアは約6.8〜7.2点失われる計算となり、実際の順位下落幅と一致している。両モデルの前日の制約スコアはすでに中下位に位置しており、1日でさらに下落したことで上位5位との差が5点以上に広がった。

Qwen3 MaxとGrok 4の制約スコア向上は、異なるパスを示している。両者はすでに実行満点を達成しており、制約側の改善が直接総合スコアを押し上げ、かつ実行側の変動を伴っていないため、構造的に比較的安定している。

制約側の1日の変動が15点を超えることは、モデルの実際の実用性を区別するための重要なシグナルとなっている。

本日の上位6モデルは制約スコアがいずれも90.7点以上であるのに対し、下位5モデルの制約スコアは83.4〜92.2点の範囲に分布している。実行満点はすでに標準装備となっており、材料制約の安定性と上限が毎日のSmokeランキングの最終的な格局を決定しつつある。


データソース:YZ Index | Run #187 | 元データを見る