GPT-o3が主要ランキングで18点急落、豆包Proが一日で35.8点急騰し逆転で5位以内へ

GPT-o3が主要ランキングで18点急落、豆包Proが一日で35.8点急騰し逆転で5位以内へ

GPT-o3は本日のSmoke評価で明らかな異常を示し、主要ランキングが昨日の76点前後から58.08点へと直接下落、実行次元は90点台から47.5点へと急落した。これは小幅な変動ではなく、実行能力がほぼ半減したことを意味する。

実行次元が当日の順位を決定

core_overallの計算式では、コード実行の重みが0.55、材料制約が0.45となっている。本日の上位5モデルの実行スコアは概ね95〜97.5の範囲にあり、GPT-5.5、2つのClaudeバージョン、豆包Proはすべて97.5の高得点を獲得した。GPT-o3の47.5は総合成績を直接32点引き下げる要因となっており、問題がコード実行の部分にあることを明確に示している。

豆包Proの本日の実行スコアも同じく47.5に留まったが、制約スコアは昨日の低水準から21.5点跳ね上がり、最終的に主要ランキングで89.85点に達し、4位入りに成功した。これは材料制約能力が単日のテストにおいて顕著に改善されたことを示しており、モデル全体のアップグレードではない。

異常シグナルが指し示すもの

GPT-o3の急落と、文心一言4.5の誠実性評価がfailからwarnへ変わったことが、本日最も注目すべき2つのシグナルとなっている。前者は実行スコアが直接崩壊し、後者は主要ランキング88.48点で中位に留まっているものの、誠実性のしきい値に黄信号が灯った。

業界内ではGPT-o3への期待は推論とツール呼び出しに偏っていたが、今回の実行スコア半減は、当日のテストで出題された10問のコード問題における特定のシナリオに関連している可能性がある。Smoke評価は毎日午前3時に定刻で実行され、サンプルは固定されているため、通常は変動が小さい。単日で18点の下落は正常範囲を超えている。

トップ構成は依然として安定、新モデルは急速にキャッチアップ

GPT-5.5は90.3点で引き続き1位を占め、実行97.5点、制約81.5点と両次元とも明確な弱点はない。Claude Opus 4.7とSonnet 4.6は主要ランキング90.08点で2位に並んでおり、Anthropicは材料制約においてはまだ差があるものの、実行能力はGPT-5.5に追いついたことを示している。

Gemini 3.1 Proと2.5 Proはそれぞれ34.7点と33.7点上昇し、実行スコアは50点台から95点へと向上した。これはGoogleがコード実行の一貫性に対して的を絞った最適化を行ったことを示している。Qwen3 MaxとDeepSeek V4 Proは依然として後方に位置しており、制約スコアの低さが主な足かせとなっている。

実行能力は現在のモデル競争における最も短い板(ボトルネック)となっており、一日のうちにスコアが激しく変動することは、一部モデルが実際のコードシナリオ下で不安定であることを露呈している。

本日のデータは再び実証している:材料制約のスコア差が3〜4点あれば上位5位と中位の差を決定づけることができ、実行スコアが一度失墜すれば、直接脱落を意味する。


データソース:YZ Index | Run #129 | 元データを見る