GPT-5.5のSmokeテスト主榜スコアが20.5点急落、コード実行が100点から50点に暴落

2026年6月20日 32 約3分 Winzheng Index

GPT-5.5 代码执行 Smoke快测单日波动模型一致性

GPT-5.5は本日のSmokeテストにおいて、主榜スコアが93.03点から72.50点に下落し、降幅は20.5点に達した。

主な変化はコード実行ディメンションに集中しており、昨日の100.00点から50.00点へと50点の急落を記録した。素材制約ディメンションは84.50点から100.00点へと15.5点上昇した。エンジニアリング判断は100.00点を維持し、タスク表現は2.5点小幅下落して97.50点となった。誠実性評価はpassを維持している。

変動原因の分析

Smokeテストは1日わずか10問で、各ディメンション2問のみとなっている。1問あたりの得点ウェイトが高く、出題のばらつきが直接50点規模の変動を引き起こし得る。コード実行が満点から50点に下落したことは、本日抽選された2問のコード問題のうち少なくとも1問で明らかな失敗またはタイムアウトが発生したことを示している。素材制約が逆に上昇したことは、制約遵守型の問題においてモデルのパフォーマンスが安定していることを示している。

このような対照的な変化は、モデル能力の全体的な低下ではなく、ランダムな出題選択の特徴をより強く示している。エンジニアリング判断とタスク表現の2つのサイド榜ディメンションがほぼ横ばいであることも、主榜の変動がコード実行という単一ディメンションの激しいぶれによるものであることを裏付けている。

継続的な監視が必要か

Smokeクイックテストの履歴において、1日20.5点の下落は珍しいことではない。特にコード実行ディメンションがわずか2問の場合、1問の難問だけでこの規模の変動を引き起こし得る。GPT-5.5の本日の素材制約が満点に達したことは、モデルの基礎能力が依然として正常な範囲にあることを示している。

今後3日間のSmokeテストでコード実行スコアが継続して70点を下回る場合は、モデルの実際の一貫性が低下している可能性を検討する必要がある。現時点では、1日のデータのみで出題変動による揺れと判断するのがより合理的である。

モデルの安定性が低い場合、1日の極端なスコアはシグナルではなくノイズである可能性が高い。少なくとも5回のSmokeサイクルに観察ウィンドウを延長してから、システム的な劣化が存在するかどうかを判断することを推奨する。

Smokeの急落が露わにするのは、多くの場合モデル自体ではなく出題の当たり外れである。

データソース：YZ Index | Run #188 | 元データを見る

GPT-5.5のSmokeテスト主榜スコアが20.5点急落、コード実行が100点から50点に暴落

変動原因の分析

継続的な監視が必要か

関連記事