Smokeが今日未明に実施した10問クイックテストは、AIモデルの実行能力の弱点を白日のもとに晒した。Grok 4が97.44点(実行100、制約94.3)で首位に立ち、Gemini 3.1 Proがわずか0.23点差で続いた。一方、GPT-o3のメインランキングは昨日の94.53点から66.43点へと一気に下落し、28.1点の暴落となった。
実行ウェイト0.55、コード問題が生死を分ける
コア計算式 core_overall = 0.55×コード実行 + 0.45×材料制約 により、今日のランキングはほぼ実行スコアで直接決まる形となった。Grok 4、Gemini 3.1 Pro、Gemini 2.5 Pro、DeepSeek V4 Pro、豆包 Proの5モデルがいずれも満点100を獲得したのに対し、残る6モデルは揃って50点まで落ち込んだ。GPT-o3、GPT-5.5、Qwen3 Max、文心一言 4.5、Claude Opus 4.7、Claude Sonnet 4.6の6モデルがコード実行で同時に失点したことは、今日のテストに多段階推論やツール呼び出しを必要とする問題が集中していたことを示している。
ClaudeとGPTシリーズが揃って失墜した理由
Claude Opus 4.7とSonnet 4.6のメインランキングはそれぞれ22.6点と22.8点下落し、実行スコアは100から50へ転落した一方、材料制約はわずかに上昇している。昨日のデータと合わせて見ると、両モデルの実行スコアの変動は極めて大きく、新たな指示やサンドボックス環境の変化により、実行を拒否したり不完全なコードを生成したりして減点された可能性が高い。GPT-o3は最大の下落幅を記録し、実行スコアが半減すると同時に、材料制約も昨日の高水準から低下しており、コードと事実の双方の圧力下で同時に崩れたことを示している。
これに対し、Grok 4とGeminiシリーズは実行スコアを満点で維持し、材料制約も92点以上を保っており、今日の10問において実行可能なコードを書きつつ、材料の境界を厳格に守れていることが分かる。DeepSeek V4 Proは4位につけたものの、制約スコアは86.2にとどまり、上位3モデルとの差は依然として明確である。今後トップ3を狙うには、制約面でさらに7〜8点の改善が必要だ。
異常信号の背後にある業界シグナル
今日6モデルの実行スコアが揃って半減したことを、「ランダムな変動」として簡単に片付けることは難しい。より可能性が高い背景としては、一部ベンダーが5月中旬に安全性やアラインメントに関するアップデートを集中的にプッシュしたことが挙げられる。こうした更新はモデルの「慎重さ」を高める一方で、コード実行の一貫性を直接損なうことが多い。ClaudeシリーズとGPTシリーズで同時に発生したwarn→passの信頼性評価の変化も、モデルの挙動が再キャリブレーションされたことを裏付けている。
豆包 Proの材料制約が15.2点暴落した件については、むしろ単一問題での極端な減点に近く、データ汚染や評価問題集の更新によるものかどうか、引き続き観察が必要である。
実行能力こそが、2026年中盤戦の真の分水嶺となりつつある。
今日のSmokeデータが再び証明したのは、制約スコアがいかに高くても、実行スコアが50に落ちれば、総合ランキングでは上位モデルに20点以上の差をつけられるということだ。Grok 4とGeminiは現時点でコード実行において明確な堀を築いており、ClaudeとGPTシリーズが次のイテレーションで実行の一貫性を修復しなければ、長期にわたってトップ5から押し出される恐れがある。
データソース:YZ Index (赢政指数) | Run #123 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接