GPT-o3の材料制約スコアが15.1点急落、工学的判断は26.8点上昇

GPT-o3はYZ Index 2026年6月のSmoke評価において、材料制約スコアが前日の97.50点から82.40点へと直接下落し、1日の下落幅は15.1点に達した。メインスコア全体も98.88点から92.08点に低下した。

次元別分析:異常が見られたのは材料制約のみ

コード実行次元は2日連続で100.00点を維持し、タスク表現も同様に100.00点を維持した。一方、工学的判断は73.20点から100.00点へと26.8点跳ね上がった。メインスコアを大きく引き下げた次元は材料制約のみであった。

Smoke評価は1日あたりわずか10問で、各次元2問ずつという構成のため、抽選によるばらつき自体がスコアの変動を引き起こす。15.1点の下落は、このような小サンプルテストにおいては、モデル能力の永続的な劣化ではなく、問題の難易度分布の変化によるものである可能性がある。

継続的な監視が必要か

現時点では1日分のデータのみであり、モデルの真の劣化を確認することはできない。材料制約スコア82.40点は依然として合格ラインを上回っており、誠実性評価はpassを維持し、コード実行とタスク表現への影響もなく、中核能力に系統的な崩壊は見られない。

翌日も材料制約スコアが引き続き85点を下回り、かつ工学的判断が低下した場合、学習後フェーズにおける制約メカニズムの緩みが生じている可能性があり、その際は監視頻度を高める必要がある。

1日単位のSmoke テストは長期的な能力判断の根拠というよりも、即時の異常を捉えるのに適している。GPT-o3の今回の変動は抽選の範囲内である可能性が高く、より信頼性の高い判断を下すには2〜3日連続での観察が必要である。


データソース:Winzheng (YZ Index) | Run #198 | 元データを見る