GPT-5.5メインランキング28点急落：本当に退化したのか

2026年5月16日 529 約6分 Winzheng Index

GPT-5.5 代码执行 Smoke评测模型退化路由波动

GPT-5.5 は本日、小さな揺れではなく、メインランキングが直接28点下落した。本当に目を引くのは、コード実行が100点から50点に落ちたことだ。

まず事実を整理しよう。今回のSmokeは毎日10問の高速テストで、各次元2問のため、単日の抽選変動は本格的な大規模サンプル評価よりも自然に激しくなる。したがって、1日のデータだけでGPT-5.5に最終判断を下すことはできない。しかし、本日のこの数値は、すでに「通常ノイズ」の許容範囲を超えている。

昨日 → 本日：コード実行 100.00 → 50.00、50点下落；材料制約 64.50 → 63.50、わずか1点下落；メインランキング 84.03 → 56.08、28点下落；誠実性評価 warn → warn。

今回の下落、責任は主に材料制約にはない

YZ Indexのメインランキングは監査可能な2つの次元のみを見ている：コード実行と材料制約だ。本日の材料制約はほぼ横ばいで、64.50から63.50へ、わずか1点減少しただけであり、モデルが「材料に基づいて話しているか、根拠のない拡張記述を減らしているか」という点での性能に明らかな悪化はないことを示している。

真の問題はコード実行だ：昨日100点、本日50点ということは、2問のうち少なくとも1問で明らかなミスが発生したことを意味し、実行パイプライン、境界条件、あるいはコード推論ステップに断裂が生じた可能性すらある。フロンティアモデルにとって、コード実行は花を添えるものではなく、本番運用可能性の基盤である。ここで変動が起きれば、影響するのはランキングの見栄えではなく、開発者がそれをワークフローに組み込む勇気を持てるかどうかである。

抽選変動は一部を説明できるが、すべてを説明することはできない

Smokeはわずか10問、2問/次元であり、難問が抽選で当たれば、確かに単項のスコアを打ち抜く可能性がある。例えばコード実行で複雑な境界、暗黙の制約、実行環境前提の問題が抽選で当たれば、モデルが満点から50点へと落ちることもあり得ない話ではない。

しかし、私は今回を完全に抽選のせいにするつもりはない。理由は3つある：

第一に、下落の集中性。材料制約はほぼ動いていないことから、全体的な状態崩壊ではなく、特定の能力や経路が打撃を受けたことを示している。
第二に、メインランキングの下落幅が大きすぎる。84.03から56.08へ、28点の下落は、Smokeにおいても再確認が必要なレッドアラートに該当する。
第三に、誠実性評価が依然としてwarnである。これは加点項目でもなく、スコアでもなく、アクセス基準のシグナルであり；warnの継続は、その回答の境界や信頼性リスクを引き続き観察する必要があることを意味する。

業界背景：フロンティアモデルは「システム層」によって再構築されつつある

最近の業界では、フロンティアモデルの変化はモデル本体だけから来るのではないことが多い。推論コストの制御、デフォルトルーティングの切り替え、セキュリティポリシーの強化、ツール呼び出し戦略の調整、コンテキスト圧縮など、すべてユーザーに「同じモデルなのに、今日は人が変わったみたい」と感じさせ得る。特にコードタスクは、ルーティングと実行戦略に極めて敏感だ：検証が1ステップ少なく、リフレクションが1回少なく、境界テストが1つ少ないだけで、スコアは半減し得る。

これは一見矛盾する現象も説明する：エンジニアリング判断（サブランキング、AI支援評価）は10.00から30.00へ上昇し、タスク表現（サブランキング、AI支援評価）は30.00を維持している。つまり、モデルの全ての性能が同期的に悪化したわけではなく、むしろコード実行パイプラインに構造的変動が生じたように見える。

特に注意してほしいのは：今後安定性について議論する場合、これは同種の問題に複数回回答した際のスコアの一貫性を測るもので、標準偏差に基づいて計算されており、正答率ではない。安定性が低いということは変動が大きいことを意味し、「正答率が低い」と等価ではない。

私の判断：注視が必要だが、まだ退化の確定ではない

結論は明確だ：GPT-5.5の本日のSmoke異常は観察リストに入れる必要があるが、単日10問だけでモデルの真の退化を判定することはできない。次に最も重要なのは、3日間のローリングを見ることだ：もしコード実行が引き続き70を下回り、メインランキングが75以上に戻れないなら、それは抽選の問題ではなく、オンライン能力やシステム戦略に実質的な変化が起きたということだ。

一言で覚えてほしい：一度のSmoke下落は警報、3回連続のコード失血こそが、モデル退化の証拠である。

データ出典：YZ Index（YZ Index） | Run #118 | 元データを見る

GPT-5.5メインランキング28点急落：本当に退化したのか

今回の下落、責任は主に材料制約にはない

抽選変動は一部を説明できるが、すべてを説明することはできない

業界背景：フロンティアモデルは「システム層」によって再構築されつつある

私の判断：注視が必要だが、まだ退化の確定ではない

関連記事