GPT-o3がクラッシュ:30秒で5回のレート制限、長文評価で33.5点の暴落

AIアシスタントが連続5回「632ミリ秒後に再試行してください」と言ってきたら、大変なことが起きているとわかるだろう。これはSF小説ではなく、今週GPT-o3が長文コンテキスト評価で遭遇した現実の出来事だ。

史上最も恥ずかしい評価失敗

Winzhengの最新AIモデル評価結果は驚きをもたらした:GPT-o3の長文コンテキストスコアが62.3点から28.8点に直接崩壊し、33.5点も暴落した。さらに離谱なのは、5つの核心問題すべてが同じ理由で失敗したことだ——APIレート制限。

失敗した問題を見てみよう:根本原因判断と証拠境界、Breaking Changes一覧、顧客移行リスク評価、費用変化計算、高品質成長分析。どれもモデルの複雑な長文処理能力を測る重要な問題だが、すべて次のようなエラー情報を返した:

Rate limit reached for gpt-4o in organization org-5kL87cAHHWwzzzRXfZoA5jZm on tokens per min (TPM): Limit 30000, Used 29516, Requested 800.

この詳細に注目してほしい:30000トークンの制限、使用済み29516、リクエスト800。これはGPT-o3が800トークンの余裕すら処理できないことを意味する。

これは単なる技術的障害ではない

表面的には、これは単純なAPIレート制限の問題に見える。しかし生のログを詳しく分析すると、より深刻な問題が発見された:

  • 5回の失敗は極めて短時間内に発生し、最短間隔はわずか140ミリ秒
  • 各リクエストのトークン数は600-800の間で、正常範囲内
  • 制限後の再試行時間は408ミリ秒から1.126秒まで、完全にランダム

これはOpenAIのインフラレベルにおける3つの致命的欠陥を露呈している:

第一に、トークン計算メカニズムに深刻なバグがある。使用量が制限に近づくと(98.4%)、システムは残り容量を正確に予測できず、正常なリクエストが拒否される。

第二に、レート制限ポリシーが過度に攻撃的だ。エンタープライズ級APIサービスでは、使用量が制限に近づいた時にバッファメカニズムがあるべきで、直接サービスを拒否すべきではない。

第三に、エラー回復メカニズムが形骸化している。再試行時間のランダム性は、システムに合理的なキューイングメカニズムが全くないことを示している。

長文コンテキスト能力の真相

さらに皮肉なのは、先週OpenAIはGPT-o3の長文コンテキスト処理能力を大々的に宣伝していたことだ。今見ると、本当に長文を処理する必要がある時、ドアすら入れないかもしれない。

この事故は残酷な真実を明らかにした:モデルの能力がいくら強くても、インフラが追いつかなければ、すべては絵に描いた餅だ。特に大量のトークンを処理する必要がある長文コンテキストのシナリオでは、APIの安定性はモデル自体の能力よりも重要だ。

評価データから見ると、GPT-o3の安定性スコアは53.0から28.0に下落し、可用性は100%から69%に下落した。これは実際の使用において、3回の呼び出しごとに1回失敗する可能性があることを意味する。真剣な商業応用にとって、このような可用性は完全に受け入れられない。

OpenAIのインフラ負債

この事故は偶然ではない。過去数ヶ月、OpenAIのAPIサービスは頻繁に様々な問題を起こしている:応答遅延、サービス中断、レート制限異常。毎回小手先の修正で、根本的な問題を真に解決したことはない。

理由は簡単だ:OpenAIはモデル訓練に多くのリソースを投入しすぎて、サービスインフラの構築を軽視している。ユーザー数が指数関数的に増加すると、これらの技術的負債が集中的に爆発する。

興味深いことに、プログラミング能力テストでは、GPT-o3のスコアは逆に23.2点向上した。これはモデル自体の能力に問題がないことを示しており、問題は配信レベルにある。これはフェラーリを買ったのに、車のキーがよく故障することに気づくようなものだ。

開発者への警鐘

GPT-o3を使用中または使用予定の開発者にとって、この事故はいくつかの重要な教訓を提供している:

  • 重要なビジネスプロセスで単一のAPIに過度に依存しない
  • 完全なフォールバックと再試行メカニズムを実装する必要がある
  • 長文を処理する際は、一度に送信するのではなく、分割処理を検討する
  • API使用量を監視し、制限に近づく前に積極的に制御する

AI大手が基本的なAPIの安定性すら保証できない時、私たちは「先進的なAI」の定義を再考すべきではないだろうか?より大きなパラメータ、より強い能力を追求する一方で、まずインフラという必修科目を補習すべきではないだろうか?

次回OpenAIが新しいモデルを発表する時、パラメータ数やベンチマークスコアよりも、私がより関心を持つのは:エラーなしで安定して動作できる時間はどれくらいか?結局のところ、気まぐれな天才よりも、安定して信頼できる普通の人の方がましなのだ。


データソース:YZ Index | Run #37 | 生データを見る