GPT-4oコード実行能力が23.7点暴落:バージョン更新が引き起こした性能の雪崩
YZ Indexの最新評価データによると、GPT-4oのコード実行(v5)バージョンが重大な性能危機に直面し、コード実行能力が78.0点から62.8点に急落した。7つの評価次元のうち6つで大幅な下落が見られ、総合スコアは81.1点から49.
YZ Indexの最新評価データによると、GPT-4oのコード実行(v5)バージョンが重大な性能危機に直面し、コード実行能力が78.0点から62.8点に急落した。7つの評価次元のうち6つで大幅な下落が見られ、総合スコアは81.1点から49.
YZ Indexの週次評価で、かつての王者GPT-4oが素材制約次元で10.3点暴落し最下位に転落。一方、文心一言4.0は主要指標で唯一のプラス成長を達成した。
GPT-4oが「厳格ツール呼び出し」機能の導入により壊滅的なパフォーマンス低下を経験し、使用可能性スコアが100点から65点に暴落。過度に慎重な動作により実用性を失った。
長文コンテキストテストでGPT-4oが5問全てレート制限エラーで失敗し、OpenAIが深刻なインフラ危機に直面していることが明らかになった。
11個の主要AIモデルに小学生レベルのタイムゾーン計算問題を解かせたところ、半数以上が基本的な時間計算を間違え、さらに全モデルが3月15日のアメリカ夏時間への言及を怠るという衝撃的な結果となった。
最新のAI評価でGPT-4oがコードのバグ検出テストで100点から0点に転落し、基本的な判断力の喪失という深刻な問題が露呈した。
GPT-4oが「金曜午後4時に新機能の即日リリース要求」という質問に対し、リリースを推奨する回答をして満点から0点に転落。実戦経験の欠如と「優等生症候群」を露呈した。