GPT-o3のコード実行が42.5点暴落、メインランキングは1日で18点崩壊

2026年5月24日 497 約3分 Winzheng Index

GPT-o3 代码执行 Smoke评测模型波动 OpenAI

GPT-o3は本日のSmoke評価において、コード実行次元が90.00から47.50へと直接崩落し、メインランキング全体も18点下落して58.08となった。この数字はモデルに説明を求めざるを得ない状況へと押し込んでいる。

データそのものが問題を物語る

Smoke評価は1日わずか10問、各次元2問のため、単日の標準偏差は元々大きい。しかし、コード実行次元が1日で42.5点も下落し、エンジニアリング判断次元も同時に50.00から10.00へと落ち込んだ結果、両者の重なりによってメインランキングで-18点の純損失が発生した。素材制約はむしろ12点上昇し、タスク表現は横ばいであり、問題は精密な推論と多段階の実行を要するタスクに集中していることを示している。

抽選による変動か、それとも真の退化か

単日のみを見れば、出題難度の抽選依然として最大の説明可能性である。しかし、連続して2つの次元で40点級の下落が発生したことは、すでに日常変動の範囲を下回る確率となっている。さらに重要なのは、エンジニアリング判断（サブランキング、AI補助評価）も同時に崩落していることであり、これは通常、暗黙的制約とトレードオフを要するシナリオにおいて、モデルの出力一貫性が著しく低下していることを意味する。

最近OpenAIはoシリーズモデルの急速なイテレーション期にあり、o3が既に内部のファインチューニングまたは蒸留段階に入っているとすれば、推論経路が圧縮された後、コード実行の堅牢性が最も損なわれやすい部分となる。これは今回の評価における「実行正答率の断崖」と高度に一致する。

重点的に注視する必要があるか

必要である。Smoke評価はスナップショットに過ぎないが、コア能力次元で40点超の単日下落が発生し、かつエンジニアリング判断次元の同時悪化を伴う場合、もはや単に運に帰することはできない。今後3〜5営業日にわたり同一モデルを継続的に追跡することを推奨し、コード実行次元が75点以上の区間に戻らない場合、出題ノイズではなく真の能力後退と判定して差し支えない。

現時点でGPT-o3の誠実性評価は依然としてpassであり、明らかなハルシネーションや逸脱問題は発生していないことを示しているが、これは実行能力に対する保護とはならない。実行能力は一度退化すると、短期間で安全アライメントによって迅速に修復することは困難である。

42.5点は運ではない、シグナルである。

データソース：YZ Index | Run #129 | 元データを表示

GPT-o3のコード実行が42.5点暴落、メインランキングは1日で18点崩壊

データそのものが問題を物語る

抽選による変動か、それとも真の退化か

重点的に注視する必要があるか

関連記事