材料制約スコアが39点急落、YZ Index 11モデルメインランキングが一斉に下落

2026年6月15日のSmoke軽量評価において、Grok 4はメインランキング82.59点(実行100、制約61.3 pass)で11モデル中首位となったが、材料制約スコアは前日比21.7点の急落となった。

実行満点モデルにおける制約面の弱点

上位8モデルは実行スコアがすべて100点に達したものの、材料制約スコアは51.3〜61.3の範囲に集中している。Grok 4、豆包Pro、GPT-5.5、Qwen3 Maxはいずれも実行100点で、制約はそれぞれ61.3、60.8、60.8、60.3、メインランキングは82.59、82.36、82.36、82.14となった。Claude Opus 4.7は実行100点・制約59.3点でメインランキング81.69点、誠実性評価は「warn」となった。

下位3モデルの実行スコアはわずか50点で、Gemini 2.5 Proのメインランキングは53.38点(制約57.5)、Gemini 3.1 Proは53.06点(制約56.8)、文心一言4.5は50.59点(制約51.3)となった。実行スコアと制約スコアの明確な乖離により、上位8モデルと下位3モデルの間に30点以上の差が生じた。

前日比での激しい変動

前日データとの比較では、Gemini 3.1 Proのメインランキングが39.4点下落し、実行スコアは47.5点、制約スコアは29.5点それぞれ低下した。Qwen3 Maxのメインランキングは29.3点上昇したが、制約スコアは30.7点下落した。豆包Proのメインランキングは23.1点上昇した一方、制約スコアは24点下落した。DeepSeek V4 Proのメインランキングは16.2点上昇したが、制約スコアは39.2点下落した。Gemini 2.5 Proのメインランキングは17.2点下落した。

材料制約スコアでは30点以上の下落が複数発生しており、Claude Sonnet 4.6が38.7点下落、Claude Opus 4.7が38点下落、DeepSeek V4 Proが39.2点下落、文心一言4.5が32.5点下落した。実行スコアが100点を維持しているモデルでも、制約スコアの低下がメインランキングを直接押し下げた。

スコア構造の違いが与える直接的な影響

core_overallの計算式は0.55×実行+0.45×制約である。実行100点のモデルでは、制約スコアが1点下落するごとにメインランキングは約0.45点低下し、実行50点のモデルでは制約スコアの影響度が相対的に高くなる。本日の上位8モデルの制約スコア中央値は約57点、下位3モデルは約56.8点で、両グループの実行スコアの差は50点であり、メインランキングの差は主に実行スコアに起因している。

異常シグナルは材料制約スコアに集中しており、全11モデルでこのスコアが低下し、うち10モデルで20点以上の下落が見られた。Grok 4は依然として首位を維持しているものの、制約スコア61.3はすでに合格ラインの境界に近づいている。

実行満点はすでに標準仕様となりつつあり、材料制約スコアがランキングを左右する重要な変数になりつつある。

本日のSmokeデータは単日10問の簡易テスト結果のみを反映しており、安定性スコアは今回の軽量評価には含まれていない。今後の注目点は、各モデルの制約スコアの回復速度である。


データソース:YZ Index | Run #176 | 元データを見る