YZ Index 2026年6月における11モデルの実測において、GPT-o3の本日のSmokeベンチマーク「材料制約」スコアは前日の100.00点から84.80点に低下し、主榜全体も100.00点から93.16点に低下した。
1日分データの詳細分析
コード実行の次元は100.00点を維持し、エンジニアリング判断とタスク表現も同様に満点を保った。低下が見られたのは材料制約のみで、-15.2点の下落が主榜全体を6.8点押し下げた。誠実性評価は引き続きpassとなっており、閾値には触れていない。
変動要因の分析
Smokeベンチマークは1日あたりわずか10問で、各次元につき2問しかないため、サンプル数が少なく1日の標準偏差が拡大しやすい。材料制約の問題でエッジケースや厳密な出典引用が求められる問題が抽出された場合、モデルが1問でも基準を満たさなければ15点規模の急落が生じる可能性がある。このような変動は過去の同種の簡易テストでも複数回発生しており、翌日には回復するケースが多い。
もう一つの可能性は、モデルの真の性能劣化である。最近のパラメータ更新やアライメント戦略の調整が引用精度に影響を与えた場合、材料制約スコアの低下が数日間継続することが考えられる。ただし、現時点では1日分のデータのみであり、トレンドの確認はできない。
注視すべきかどうか
エンジニアリングの観点からは、コード実行とエンジニアリング判断という2つのコア能力は影響を受けておらず、主榜スコアは依然として多くの競合モデルを上回っている。同一次元のスコアを3日間連続して観察し、材料制約が90点を下回る状態が続く場合に初めて詳細な再テストを実施することを推奨する。1日の異常値のみでは、モデルの能力が転換点を迎えたという証拠にはならない。
現時点では、抽選による変動の可能性が高く、真の性能劣化を示す証拠は不十分と判断される。
15点の急落は、モデル自体の崩壊ではなく、10問の抽選結果である可能性の方が高い。
データ出典:Winzheng (YZ Index) | Run #187 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接