GPT-4oが崩壊：5問全滅でOpenAIのインフラ問題が露呈

2026年3月22日 590 約6分 Winzheng Index

GPT-4o 长上下文 OpenAI基础设施 API限流模型稳定性

GPT-4oの最新評価データを見た時、最初の反応はテストシステムのバグだと思った。しかし、元のログを詳しく確認した後、これはモデル能力の低下よりも深刻な問題だと気づいた——OpenAIのインフラが崩壊寸前にあるのだ。

これは大げさな話ではない。長文コンテキストテストで、GPT-4oは5つの問題すべてで同じエラーを返した：「Rate limit reached for gpt-4o in organization org-5kL87cAHHWwzzzRXfZoA5jZm on tokens per min (TPM): Limit 30000」。これが何を意味するか？OpenAI自身のテストアカウントでさえ、標準的な長文分析タスクを正常に完了できないということだ。

崩壊したのはスコアだけではない

データは残酷だ：長文コンテキストのスコアは62.3から40.4へ暴落し、35.2%の下落となった。さらに致命的なのは安定性指標で、52.8%から32.2%へ下落し、可用性に至っては100%から65%へと断崖絶壁的に落ち込んだ。これはもはや「性能変動」で説明できるレベルではなく、システム的な崩壊だ。

全滅した5つの問題を具体的に見てみよう：根本原因の判断、Breaking Changes一覧、費用計算、成長分析、取締役会議題——すべて長文を深く理解する必要がある高価値タスクだ。そしてGPT-4oのパフォーマンスは？問題を最後まで読む前に自社のレート制限システムに締め出されてしまった。

最も皮肉なのは何か？エラーメッセージの「Please try again in 824ms」——1秒も待てないとは、どれほどリソースが逼迫しているのか？

30000 TPM：恥ずかしい数字

計算してみよう。30000 tokens per minuteとは何を意味するか？GPT-4のトークナイザーで計算すると、毎分約2万中国語文字の処理に相当する。知識労働に革命を起こすと謳うモデルにとって、この制限は冗談としか言いようがない。

標準的な企業の年次報告書は軽く10万字を超え、ソフトウェアプロジェクトのコードベースは簡単に100万トークンを超える。基本的な文書分析でさえレート制限を受けるなら、GPT-4oはどうやって「長文コンテキスト能力」を語れるのか？

さらに離れ業なのは、失敗したリクエストはそれぞれわずか500-800トークン——1Kにも満たない。これはシステムがすでに限界まで稼働しており、どんな小さなリクエストでもラクダの背を折る最後の藁になりうることを示している。

OpenAIの計算リソースのジレンマ

今回の事故が露呈したのはGPT-4oの能力問題ではなく、OpenAIが直面する深層の困難だ：

ユーザー成長とインフラの不均衡：ChatGPTの月間アクティブユーザーは2億人を超えたが、バックエンドリソースは明らかに追いついていない
コスト管理のジレンマ：レート制限でユーザー体験を犠牲にするか、お金を燃やして拡張し財務を破綻させるか
技術的負債の反撃：急速な反復開発が残したインフラの負債が集中的に爆発し始めている

興味深いことに、この崩壊の中で、プログラミング能力は逆に29.2点上昇した。これは何を示しているか？OpenAIがリソース配分を調整し、短文・高頻度シナリオを優先し、長文処理能力を犠牲にしている可能性がある。

これは始まりに過ぎない

これが単なる偶発的な技術障害だと思うなら、それはあまりにもナイーブだ。エラーメッセージの組織ID（org-5kL87cAHHWwzzzRXfZoA5jZm）から見ると、これはOpenAI内部または重要なパートナーのテストアカウントの可能性が高い。VIPさえ保証できないなら、一般ユーザーの体験は推して知るべしだ。

より深刻な問題は：モデル能力の向上速度がインフラの拡張速度を超えた時、崩壊は必然だということだ。GPT-4oのパラメータ数、計算の複雑さはGPT-4と比べて大幅に向上したが、OpenAIのGPUクラスタの拡張速度は明らかに追いついていない。

これは2022年にChatGPTが爆発的に人気になった時、OpenAIのCEO Sam Altmanがツイッターで謝罪したことを思い出させる：「私たちはより多くの容量を追加するよう努力しています。」2年が経過したが、容量問題は解決されるどころか、むしろ深刻化している。

同業他社への警鐘

この事故はすべてのAI企業に警鐘を鳴らしている：

「より大きく、より強く」に惑わされるな。インフラが追いつかなければ、どんなに強力なモデルも砂上の楼閣だ
長文コンテキストはAIの試金石であり、うまく処理できなければ絵に描いた餅だ
安定性と可用性こそが商業化の基礎であり、技術の誇示では製品は救えない

潮が引いた時、私たちが見るのは誰が裸で泳いでいたかではなく、誰のプールにもう水がないかだ。GPT-4oの今回の崩壊は、AI業界最大の嘘を露呈した：私たちは本当に使えるAIから、想像以上に遠い場所にいるのだ。

データソース：YZ Index | Run #37 | 生データを見る