GPT-4oコード実行能力が23.7点暴落:バージョン更新が引き起こした性能の雪崩
YZ Indexの最新評価データによると、GPT-4oのコード実行(v5)バージョンが重大な性能危機に直面し、コード実行能力が78.0点から62.8点に急落した。7つの評価次元のうち6つで大幅な下落が見られ、総合スコアは81.1点から49.
YZ Indexの最新評価データによると、GPT-4oのコード実行(v5)バージョンが重大な性能危機に直面し、コード実行能力が78.0点から62.8点に急落した。7つの評価次元のうち6つで大幅な下落が見られ、総合スコアは81.1点から49.
YZ Indexの週次評価で、かつての王者GPT-4oが素材制約次元で10.3点暴落し最下位に転落。一方、文心一言4.0は主要指標で唯一のプラス成長を達成した。
GPT-4oが「厳格ツール呼び出し」機能の導入により壊滅的なパフォーマンス低下を経験し、使用可能性スコアが100点から65点に暴落。過度に慎重な動作により実用性を失った。
長文コンテキストテストでGPT-4oが5問全てレート制限エラーで失敗し、OpenAIが深刻なインフラ危機に直面していることが明らかになった。
11個の主要AIモデルに小学生レベルのタイムゾーン計算問題を解かせたところ、半数以上が基本的な時間計算を間違え、さらに全モデルが3月15日のアメリカ夏時間への言及を怠るという衝撃的な結果となった。
最新のAI評価でGPT-4oがコードのバグ検出テストで100点から0点に転落し、基本的な判断力の喪失という深刻な問題が露呈した。
GPT-4oが「金曜午後4時に新機能の即日リリース要求」という質問に対し、リリースを推奨する回答をして満点から0点に転落。実戦経験の欠如と「優等生症候群」を露呈した。
OpenAIが突如GPT-4oモデルへのアクセスを削除し、特に中国のユーザーが精神的支えを失ったと大きな衝撃を受けている。
OpenAIは、ユーザーの依存症や複数の訴訟を引き起こした「お世辞」特性で知られるGPT-4oモデルへのアクセス権限を削除すると発表した。
X(旧Twitter)でOpenAIに対する大規模な抗議運動が発生し、GPT-4oの突然の変更や「廃止」に対してユーザーが#keep4oなどのハッシュタグで抵抗、ChatGPT Plusの解約やAppleへの返金要求が相次いでいる。
AnthropicがClaude 3.5 Sonnetモデルを正式発表し、コーディング、数学、視覚などの複数のベンチマークテストでOpenAIのGPT-4oを全面的に上回り、生成AI分野の競争が再び激化している。
百度が正式発表したErnie 4.0 Turbo大規模言語モデルは、中国語処理能力で優れた性能を発揮し、権威あるベンチマークテストでOpenAIのGPT-4oを上回り、業界の注目を集めている。
AnthropicがClaude 3.5 Sonnetモデルを正式発表。複数の権威ある基準テストで記録的な成績を達成し、特にコーディングと複雑な推論タスクでOpenAIのGPT-4oを上回り、技術界で注目を集めている。
OpenAIがGPT-4oの引退を発表し、感情的な愛着を持つユーザーから強い反発を受けた。この事件はAI伴侶への過度の依存という社会問題を露呈した。
AI新興企業AnthropicがClaude 3.5 Sonnetモデルを発表し、コーディングと視覚理解タスクでGPT-4oを上回る性能を示し、推論速度を2倍に向上させてLMSYS Chatbot Arenaランキング首位を獲得した。
Anthropic社のClaude 3.5 Sonnetモデルが、SWE-benchというソフトウェア工学の基準テストで49%のタスク解決率を達成し、OpenAIのGPT-4oを大きく上回った。この結果は、コード生成AIの性能記録を更新し、
阿里クラウドの通義千問チームが発表したQwen2.5-Maxモデルは、多くの権威ある基準テストでOpenAIのGPT-4oを超え、中国のAIコミュニティで大きな話題となっています。
AnthropicのClaude 3.5 SonnetがSWE-benchで49%の正確率を記録し、GPT-4oを超える成果を上げました。これにより、開発者の生産性向上が期待され、AIが新たな革命を引き起こしています。
アリババクラウドのQwen2.5-MaxモデルがArena-Hardランキングでトップに立ち、GPT-4oを超えたことで、AI業界において大きな話題となっています。この成果は、中国のAIが性能面で重要な突破を果たしたことを示し、128Kの超
AnthropicはClaude 3.5 Sonnetモデルを発表し、このモデルはSWE-bench Verified基準テストで49%のスコアを達成し、OpenAIのGPT-4oを約20%リードしました。このニュースは開発者コミュニティで