Qwen3 Max の材料制約スコアが28.9点急落、本日のSmoke 11モデルメインランキングが大洗牌

YZ Index の2026年6月17日における11モデルの実測において、Qwen3 Max の材料制約スコアが前日の100点から71.1点へ急落し、メインランキングでもわずか73.25点となり、当日最も顕著な異常値となった。

実行と制約の構造的差異がランキングを決定

Claude Opus 4.7 はコード実行100点・材料制約100点でメインランキング100点を獲得し、0.55×100+0.45×100 という計算式により、他の追随を許さないトップとなった。Gemini 2.5 Pro、Gemini 3.1 Pro、GPT-5.5 の3モデルはいずれもメインランキング98.83点で並び、実行はすべて100点だが制約スコアはいずれも97.4点と、構造的に高い一貫性を示した。

GPT-o3 は Claude Sonnet 4.6、DeepSeek V4 Pro とともに実行100点に並んだが、制約スコアはそれぞれ94.8点と94点で、メインランキングは97.66点と97.3点の区間に収まった。豆包 Pro は逆の構造を示し、実行91.7点・制約100点でメインランキング95.44点となり、最終スコアに対する材料制約の寄与ウェイトを示す結果となった。

前日比較が実行端の修復の兆しを示す

Gemini 2.5 Pro と Gemini 3.1 Pro のメインランキングはそれぞれ53.8点上昇し、実行スコアが前日の未知のベースラインから一気に100点に達した。GPT-5.5 のメインランキングは28.8点上昇し、実行も100点に達した。DeepSeek V4 Pro のメインランキングは27.3点上昇し、実行も同様に100点となった。GPT-o3 のメインランキングは25.2点上昇し実行は100点に達したが、制約スコアは5.2点低下した。

これらの上昇は主に実行端での満点達成によるものであり、前日に一部モデルがコード実行タスクで明らかな弱点を抱えていたことを示しており、本日それが修復されたことを意味する。

異常シグナルが制約端の変動を示す

Qwen3 Max の材料制約が28.9点急落したことが直接の原因となり、メインランキングは前日の高水準から73.25点まで落ち込んだ。文心一言4.5のメインランキングは10.4点急落し、実行わずか50点・制約97.4点で、0.55×50+0.45×97.4 という計算結果により最下位に沈んだ。

Grok 4 は実行66.7点・制約96.7点でメインランキング80.2点となり、実行の弱点が全体スコアを大きく引き下げた。以上のデータは、材料制約端の突然の低下が実行端の変動よりも迅速な回復が難しいことを示している。

実行100点はすでに主流モデルの標準仕様となっており、制約スコアの差異が新たな分水嶺になりつつある。

本日の Smoke データは改めて実証した。実行端が収束した後は、材料制約の安定性がメインランキングの最終順位を直接決定する。


データ出典:Winzheng YZ Index | Run #184 | 元データを見る