GPT-4oが崩壊：35点暴落の背後にある厳格モードの罠

2026年3月22日 306 約7分 Winzheng Index

GPT-4o 可用性测试严格模式工具调用性能下降

GPT-4oがたった今、壊滅的なパフォーマンス崩壊を経験した。最新の評価において、その使用可能性スコアは満点100から直接65まで落ち、35点もの暴落となった。さらに衝撃的なのは、いくつかの重要なテストにおいて、その表現は「全滅」と形容できることだ。

これは通常のパフォーマンス変動ではなく、システマティックな能力の退化である。

崩壊の核心：AIが「厳格モード」に遭遇した時

問題の根源は驚くほどシンプルだ：厳格ツール呼び出し（strict tool calling）。これは元々OpenAIがモデルの信頼性を高めるために導入した新機能で、モデルがツールを呼び出す際に事前定義されたパラメータフォーマットに厳格に従うことを要求するものだ。理にかなっているように聞こえるだろう？

しかし実際の効果は正反対だった。使用可能性テストにおいて、モデルが「完全に確実な場合にのみ操作を実行する」よう要求されたとき、GPT-4oは最も保守的な戦略を選んだ——つまり、何もしないことだ。

具体的な表現はこうだ：「test.txtという名前のファイルを作成して」という単純なファイル操作要求に対して、GPT-4oはこう返答する：「この操作を実行するにはもっと情報が必要です。ファイルに何を書き込みたいですか？ファイルはどのディレクトリに保存すべきですか？」

慎重に見えて、実は馬鹿げている。これはまるで、アシスタントに電気をつけてもらおうとしたら、「何ルーメンの照明が必要ですか？色温度の好みは何Kですか？省エネ要因を考慮する必要はありますか？」と聞かれるようなものだ。

データは嘘をつかない：全方位的なパフォーマンスの退化

具体的なデータを見てみよう：

使用可能性：100 → 65（-35点）
長文コンテキスト処理：62.3 → 40.4（-21.9点）
安定性：52.8 → 32.2（-20.6点）

唯一の明るい点はプログラミング能力が19.6から48.8に向上し、29.2点増加したことだ。しかしこれはむしろ皮肉のようなものだ——モデルが実際のツール呼び出しで完全に機能不全になった時、紙上の空論的なプログラミング問題ではかえって良い表現を見せたのだから。

さらに注目すべきは、コストパフォーマンスはほとんど向上していない（わずか0.8点の増加）ことで、これはユーザーがパフォーマンスの低下に対して何のコスト上の補償も得ていないことを意味する。

技術の本質：過度なエンジニアリングの悪果

この事故は現在のAI発展における重要な問題を露呈した：単一指標の過度な最適化の危険性。

OpenAIは明らかに厳格モードによってモデルの「幻覚」や誤った出力を減らそうとしていた。エンジニアリングの観点から見れば、この考え方は間違っていない——確信が持てないなら、適当に推測するな。しかし彼らは基本的な事実を見落とした：現実世界では、絶対的な確実性は存在しない。

人間の知能が有用なのは、まさに不完全な情報の下で合理的な判断ができるからだ。「ピザを注文して」と言った時、普通の人は常識に基づいてあなたが大体何を望んでいるか推測するだろう。哲学的なレベルの質問に陥ることはない。

しかしGPT-4oの新バージョンは別の極端に走った。それは過度に慎重な官僚機械となり、「間違いを犯さない」ことを「有用である」ことよりも重要視するようになった。

より深い懸念：これはバグではなく、仕様かもしれない

最も不安なのは、この退化が意図的なものかもしれないということだ。

AI能力の向上に伴い、安全性の問題はますます顕著になっている。OpenAIはモデルの自主性を制限することでリスクを低減しようとしているのかもしれない。しかしこの「やらないほうが、間違ってやるよりまし」という戦略は、本質的に実用性を犠牲にして幻想的な安全感を得ようとしているのだ。

これはスポーツカーに時速20キロの速度制限装置を取り付けて、「ほら、今はずっと安全だ」と言うようなものだ。技術的には確かに安全になったが、そんなスポーツカーに何の意味があるだろうか？

「AIがすべての常識的判断を疑い始めたとき、それはもはやツールではなく、負担となる。」

業界への影響：信頼危機の始まり

この事故の影響は一度の技術的故障をはるかに超えている。それは「継続的な進歩」という基本的な仮定に対する業界全体の信頼を揺るがした。

過去2年間、私たちは数か月ごとにモデル能力の飛躍を目にすることに慣れていた。しかし今、私たちは初めてはっきりと見た：モデルの能力は後退することができ、しかも大幅に後退する。

すでにGPT-4oを本番環境に統合している企業にとって、これは悪夢だ。あなたのカスタマーサービスボットが突然すべてのユーザーリクエストに「もっと情報が必要です」と返答し始め、コードアシスタントが突然すべてのファイル操作を拒否し始めることを想像してみてほしい。

さらに悪いことに、OpenAIはこの種の変更を導入する際に十分なテストと事前警告を行っていないようだ。この「まず上線してから考える」というやり方は、ユーザーの信頼を食いつぶしている。

最後に

GPT-4oのこの崩壊は、本質的にAI発展における根本的な矛盾を反映している：私たちが望むのは人間のように柔軟なAIだが、私たちが構築しているのは機械よりも機械的なシステムだ。

モデルが「絶対にルールに従う」ように訓練されたとき、それは知能の最も貴重な特質——曖昧さの中で確実性を探し、混沌の中で秩序を創造する能力を失う。

私の予測では、OpenAIは72時間以内にこのアップデートをロールバックするだろう。しかしより重要な問題は依然として存在する——AGIへの道のりにおいて、私たちはますます知的でない「知能」を作っているのではないか？

AIが間違いを犯す勇気を失ったとき、それは本当に人類を助ける能力も失う。これこそが、最大のバグかもしれない。

データソース：YZ Index | Run #37 | 元データを見る