Qwen3 Max が主要ランキングで19.2点急落——4モデルが実行・制約でダブル満点を達成

2026-06-21 のSmoke軽量評価において、DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3、Grok 4の4モデルが主要ランキング・コード実行・素材制約の3項目すべてで100点を獲得し、実行と制約の完全な一致を実現した。

満点モデルの構造的特徴

満点を獲得した4モデルはコード実行・素材制約ともに100点であり、core_overall の計算式(0.55×実行 + 0.45×制約)により自然に100点が導き出される。Claude Opus 4.7 と Gemini 2.5 Pro がこれに続き、主要ランキングは99.28点。両者の実行も同じく100点だが、制約はいずれも98.4点であり、素材制約が唯一の減点ポイントとなっている。

GPT-5.5 の主要ランキングは97.98点で、実行100点・制約95.5点。豆包 Pro は主要ランキング96.63点で、実行100点・制約92.5点。Claude Sonnet 4.6 は主要ランキング96.49点で、実行100点・制約92.2点。この3モデルに共通する特徴は実行が満点である一方、制約が満点を大きく下回っており、構造的に「実行強・制約弱」の組み合わせを示している。

異常シグナルは実行次元に集中

Qwen3 Max は当日の主要ランキングで80.82点を記録し、実行68.8点・制約95.5点となった。前日との比較では実行次元が31.2点急落し、これが主要ランキングの19.2点下落に直結した。制約次元は95.5点を維持し明らかな低下は見られないことから、今回の急落は主にコード実行タスクの安定性低下に起因していることがわかる。

文心一言 4.5 の主要ランキングは88.28点で、実行81.3点・制約96.8点。前日比では実行が31.3点上昇し、主要ランキングも17.3点上昇した。制約は高水準を維持しており、「制約が実行を上回る」逆転構造を示している。

実行と制約の重み付けによる影響

core_overall においてコード実行の重み(0.55)が素材制約(0.45)より高いため、実行次元の変動が主要ランキングに与える影響はより大きい。Qwen3 Max の実行が68.8点に落ち込んだ場合、制約が95.5点を維持していても主要ランキングの順位を回復することはできない。一方、文心一言 4.5 は制約96.8点という高得点も実行81.3点との差を補いきれず、最終的に10位にとどまった。

Gemini 3.1 Pro と Gemini 2.5 Pro は前日の実行がいずれも50点だったが、本日は両者とも100点に上昇し、主要ランキングはそれぞれ29点・28.3点上昇した。実行次元の急速な回復が当日の順位を直接変動させた形だ。

実行次元の大幅な変動が、Smoke軽量評価のランキングを左右するコア変数になりつつある。

本日の評価では、実行満点のモデルが上位9位を占め、10位と11位のみが実行82点未満となった。素材制約については、Qwen3 Max と文心一言 4.5 を除く全モデルが92.2点以上を記録しており、制約全体の水準は実行のばらつき度合いを上回っている。


データソース:YZ Index | Run #190 | 元データを見る