2026年6月20日のSmoke軽量評価において、GPT-5.5の総合ランキングスコアが前日の93点から72.5点に低下し、実行スコアは100点から50点へと直接半減、制約スコアも115.5点から100点に後退した。
実行スコアと制約スコアの構造的な二極化が顕著に
上位7モデルの実行スコアはいずれも98.4点以上を記録しており、Claude Opus 4.7とQwen3 Maxは実行・制約ともに100点満点を達成した。Claude Sonnet 4.6、DeepSeek V4 Pro、豆包Pro、GPT-o3の4モデルは実行スコアがいずれも100点で並び、制約スコアはすべて96.7点となり、「実行満点+制約わずかに譲歩」という安定した構造を形成している。
下位4モデルは対照的な様相を呈している。GPT-5.5、文心一言4.5、Gemini 2.5 Pro、Gemini 3.1 Proの実行スコアはいずれも50点に落ち込んだ一方、制約スコアは96.7〜100点を維持している。core_overall算出式において実行スコアの重みが0.55であるため、この4モデルの総合ランキングスコアが大幅に引き下げられた。
4モデルの異常な下落の構造的要因
Gemini 3.1 Proの総合スコアは28.3点下落し、実行スコアは50点低下した。Gemini 2.5 Proは25点の総合スコア下落となり、実行スコアも同様に50点低下、制約スコアも5.5点わずかに後退した。文心一言4.5は実行スコアが44.1点低下し、総合スコアは22.2点の下落となった。GPT-5.5は実行スコアが50点低下し、総合スコアは20.5点の下落となった。
これらの下落はいずれも実行スコアの次元に集中しており、制約スコアの下落幅は限定的か変動なしにとどまっている。Smoke評価の10問において、実行系の問題の割合が0.55の重み係数に直接影響するため、1日のスコアが20点以上の大幅下落を引き起こした。
高スコアモデルのバランス型特性
Claude Opus 4.7とQwen3 Maxは100点で同率1位となり、両モデルともコード実行および資料制約において弱点がない。Grok 4は実行スコア98.4点、制約スコア96.7点、総合スコア97.64点で7位につけており、実行と制約のほぼ均衡した状態を維持している。
本日のデータによると、実行スコアが100点のモデルが総合ランキング上位6位のうち5席を占めており、制約スコア96.7点が現在の合格ラインとなっている。この制約スコアを下回るモデルはまだ出現していない。
実行スコアが50点の4モデルは制約スコアが依然として高い水準にあり、資料制約能力が同時に崩壊したわけではなく、問題はコード実行パスの安定性に集中していることを示している。
実行スコアの次元で50点規模の一斉後退が発生したことにより、4モデルの総合ランキング順位が上位6位から直接下位4位へと押し下げられ、重み係数0.55がこの構造的亀裂を拡大させた。
本日のSmoke評価は単日10問の結果のみを反映しており、実行スコアの大幅な変動については、その継続性を確認するために今後複数日にわたるデータによる検証が必要である。
データ出典:YZ Index | Run #188 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接