GPT-o3がクラッシュ:30秒で5回のレート制限、長文評価で33.5点の暴落
GPT-o3が長文コンテキスト評価テストで深刻なAPI制限エラーを起こし、スコアが62.3点から28.8点に暴落。OpenAIのインフラ不足が露呈した。
GPT-o3が長文コンテキスト評価テストで深刻なAPI制限エラーを起こし、スコアが62.3点から28.8点に暴落。OpenAIのインフラ不足が露呈した。
GPT-4oが「厳格ツール呼び出し」機能の導入により壊滅的なパフォーマンス低下を経験し、使用可能性スコアが100点から65点に暴落。過度に慎重な動作により実用性を失った。
豆包 Pro は今週の評価でプログラミングや知識作業などの面で大幅な向上を見せた一方、安定性スコアが54.5点から34.7点へと36.3%も急落するという異常な現象を示しました。この「進歩と退化の併存」現象の技術的要因を詳しく分析します。
長文コンテキストテストでGPT-4oが5問全てレート制限エラーで失敗し、OpenAIが深刻なインフラ危機に直面していることが明らかになった。
Gemini 2.5 Proの安定性スコアが1週間で22.8点も暴落し、プログラミング能力向上と引き換えに深刻な信頼性の問題を露呈した。
最新のWinzheng AI評価データによると、文心一言4.0はプログラミング能力が41.4点向上した一方で、安定性が22.1点急落し、百度が性能向上のために安定性を犠牲にしている可能性が明らかになった。
Qwen Maxは今週の評価で極端な二面性を示し、プログラミングや長文処理などの複雑なタスクでは大幅に向上した一方、安定性では崖っぷちのような急落を見せました。
今週の評価データによると、Gemini 2.5 Proの安定性指標が54.0点から31.2点へと42.2%も急落し、他の次元での全般的な向上とは対照的に、出力品質の一貫性維持における深刻な問題が露呈した。
DeepSeek R1の安定性スコアが53.7点から31.6点へと41.2%暴落し、「標準大気圧下で水は101度まで沸騰できるか」などの基礎的な判断問題で全て誤答するという衝撃的な結果が明らかになった。
Claude 4.6のプログラミング能力が38.3ポイント向上した一方で、安定性が54.2から31.2へと壊滅的に低下し、アルゴリズムレベルでのシステム崩壊が発生した。
文心一言4.0は今週の評価でプログラミング能力が大幅に向上した一方、安定性スコアが52.1点から30.0点へと急落し、モデルのアップグレードプロセスに深刻な問題が存在する可能性を示している。
DeepSeek V3は今週の評価でプログラミング能力が42.6ポイント向上した一方、安定性指標が53.4から32.0へと急落し、極めて矛盾した性能を示した。
11個のAIモデルのプログラミング能力が1週間で一斉に約40点急上昇した異常なデータの背後には、中国製モデルの全面的なリード、OpenAIの急落、長文処理能力の重要性向上という3つの重要なシグナルが隠されている。
DeepSeek R1は今週の評価でプログラミング能力が47.4点上昇し67.9点に、長文処理能力が18.1点上昇し78.3点に達した一方で、安定性は53.7点から31.6点へと急落し、極端な性能の二極化を示した。
Claude 3.5 Sonnet(バージョン4.6)の安定性スコアが54.2から31.2へと42%急落した一方で、プログラミング能力は184%向上するなど、他の評価指標では顕著な改善が見られ、この「トレードオフ」現象の技術的要因を分析する
Claude Opus 4.6の安定性スコアが先週の53.5から31.0へと42.1%の大幅下落を記録し、出力フォーマットの一貫性問題が明らかになった。一方で、プログラミング能力は208%向上するなど、性能向上と安定性低下という矛盾した結果
実際のデバッグシナリオで11の主流AIモデルをテストしたところ、45%のモデルが及第点すら取れず、その中には新しくリリースされたDeepSeek V3も含まれていた。
11個の主要AIモデルに小学生レベルのタイムゾーン計算問題を解かせたところ、半数以上が基本的な時間計算を間違え、さらに全モデルが3月15日のアメリカ夏時間への言及を怠るという衝撃的な結果となった。
5人の順位付けという簡単な論理問題で、DeepSeek V3を含む3つのAIモデルが基本的な制約条件を無視して誤答し、現在のAI推論能力の深刻な脆弱性を露呈した。
同一のエンジニアリング判断問題を11のAIモデルに解かせたところ、豆包Proが100点満点を獲得した一方、ClaudeやGPT-4oを含む8つのモデルが0点という結果になり、実務的な推理能力における大きな差が明らかになった。