GPT-4o に関するニュース

GPT-4oコード実行能力が23.7点暴落：バージョン更新が引き起こした性能の雪崩

YZ Indexの最新評価データによると、GPT-4oのコード実行（v5）バージョンが重大な性能危機に直面し、コード実行能力が78.0点から62.8点に急落した。7つの評価次元のうち6つで大幅な下落が見られ、総合スコアは81.1点から49.

GPT-4o 代码执行性能下降模型评测

2026年3月31日 312

レビュー

11個AIモデル週次評価：GPT-4oが素材制約で10点暴落、中国製文心が逆行上昇

YZ Indexの週次評価で、かつての王者GPT-4oが素材制約次元で10.3点暴落し最下位に転落。一方、文心一言4.0は主要指標で唯一のプラス成長を達成した。

GPT-4o 文心一言材料约束代码执行

2026年3月24日 351

レビュー

GPT-4oが崩壊：35点暴落の背後にある厳格モードの罠

GPT-4oが「厳格ツール呼び出し」機能の導入により壊滅的なパフォーマンス低下を経験し、使用可能性スコアが100点から65点に暴落。過度に慎重な動作により実用性を失った。

GPT-4o 可用性测试严格模式工具调用

2026年3月22日 305

レビュー

GPT-4oが崩壊：5問全滅でOpenAIのインフラ問題が露呈

長文コンテキストテストでGPT-4oが5問全てレート制限エラーで失敗し、OpenAIが深刻なインフラ危機に直面していることが明らかになった。

GPT-4o 长上下文 OpenAI基础设施 API限流

2026年3月22日 337

レビュー

11個のAIに同じ問題を出題したら、6個は曜日すら計算できなかった

11個の主要AIモデルに小学生レベルのタイムゾーン計算問題を解かせたところ、半数以上が基本的な時間計算を間違え、さらに全モデルが3月15日のアメリカ夏時間への言及を怠るという衝撃的な結果となった。

DeepSeek GPT-4o 时区计算模型评测

2026年3月21日 328

レビュー

GPT-4o崩壊：エンジニアが最も信頼するAIの判断力が0点に転落

最新のAI評価でGPT-4oがコードのバグ検出テストで100点から0点に転落し、基本的な判断力の喪失という深刻な問題が露呈した。

GPT-4o 编程能力代码审查工程实践

2026年3月21日 207

レビュー

GPT-4oが厳格題で0点大失敗：AIが金曜リリースという死亡フラグに遭遇した時

GPT-4oが「金曜午後4時に新機能の即日リリース要求」という質問に対し、リリースを推奨する回答をして満点から0点に転落。実戦経験の欠如と「優等生症候群」を露呈した。

GPT-4o 工程判断力周五发布生产事故

2026年3月21日 212

海外

OpenAI、GPT-4oモデルを削除 - 中国のChatGPTファンが大混乱

OpenAIが突如GPT-4oモデルへのアクセスを削除し、特に中国のユーザーが精神的支えを失ったと大きな衝撃を受けている。

OpenAI GPT-4o 中国用户 AI伴侣

2026年2月14日 906

海外

OpenAI、「お世辞」GPT-4oモデルへのアクセス権限を緊急削除

OpenAIは、ユーザーの依存症や複数の訴訟を引き起こした「お世辞」特性で知られるGPT-4oモデルへのアクセス権限を削除すると発表した。

OpenAI GPT-4o AI谄媚模型安全

2026年2月14日 684

オリジナル

OpenAI GPT-4o変更騒動：#keep4o運動が拡大、ユーザーが集団抗議

X（旧Twitter）でOpenAIに対する大規模な抗議運動が発生し、GPT-4oの突然の変更や「廃止」に対してユーザーが#keep4oなどのハッシュタグで抵抗、ChatGPT Plusの解約やAppleへの返金要求が相次いでいる。

OpenAI GPT-4o #keep4o AI用户抗议

2026年2月13日 774

オリジナル

Anthropic、Claude 3.5 Sonnetを発表：コーディングと視覚タスクでGPT-4oをリード

AnthropicがClaude 3.5 Sonnetモデルを正式発表し、コーディング、数学、視覚などの複数のベンチマークテストでOpenAIのGPT-4oを全面的に上回り、生成AI分野の競争が再び激化している。

Claude 3.5 Sonnet GPT-4o Anthropic

2026年2月11日 475

オリジナル

百度Ernie 4.0 Turbo発表：中国語ベンチマークテストでGPT-4oを上回る

百度が正式発表したErnie 4.0 Turbo大規模言語モデルは、中国語処理能力で優れた性能を発揮し、権威あるベンチマークテストでOpenAIのGPT-4oを上回り、業界の注目を集めている。

Ernie 4.0 百度中文AI GPT-4o

2026年2月7日 422

オリジナル

Claude 3.5 Sonnet、AI基準記録を更新：複数のテストでGPT-4oを上回り、コーディング能力が議論を巻き起こす

AnthropicがClaude 3.5 Sonnetモデルを正式発表。複数の権威ある基準テストで記録的な成績を達成し、特にコーディングと複雑な推論タスクでOpenAIのGPT-4oを上回り、技術界で注目を集めている。

Claude 3.5 Sonnet Anthropic 基准测试 GPT-4o

2026年2月7日 428

海外

OpenAI、GPT-4o引退で反発招く：AI伴侶の危険性が浮き彫りに

OpenAIがGPT-4oの引退を発表し、感情的な愛着を持つユーザーから強い反発を受けた。この事件はAI伴侶への過度の依存という社会問題を露呈した。

OpenAI GPT-4o AI伴侣 AI伦理

2026年2月7日 373

オリジナル

Claude 3.5 Sonnet、AIランキング首位に：コーディング・視覚でGPT-4oを上回り、速度2倍で競争構図を再編

AI新興企業AnthropicがClaude 3.5 Sonnetモデルを発表し、コーディングと視覚理解タスクでGPT-4oを上回る性能を示し、推論速度を2倍に向上させてLMSYS Chatbot Arenaランキング首位を獲得した。

Claude 3.5 Sonnet Anthropic AI技术突破 Arena排行榜

2026年2月3日 459

オリジナル

Claude 3.5 Sonnetのエンコーディング能力がSWE-benchで首位に：49%のスコアがGPT-4oを33%上回る

Anthropic社のClaude 3.5 Sonnetモデルが、SWE-benchというソフトウェア工学の基準テストで49%のタスク解決率を達成し、OpenAIのGPT-4oを大きく上回った。この結果は、コード生成AIの性能記録を更新し、

Claude 3.5 Sonnet SWE-bench 编码AI Anthropic

2026年2月3日 439

オリジナル

阿里Qwen2.5-Max強勢登場：多基準でGPT-4oを超え、中国AI閉源モデルの新高峰

阿里クラウドの通義千問チームが発表したQwen2.5-Maxモデルは、多くの権威ある基準テストでOpenAIのGPT-4oを超え、中国のAIコミュニティで大きな話題となっています。

Qwen2.5 阿里云中文AI 大模型突破

2026年2月2日 340

オリジナル

Claude 3.5 SonnetがSWE-benchでトップに：49%の正確率でGPT-4oを凌駕、開発者の生産性に新革命

AnthropicのClaude 3.5 SonnetがSWE-benchで49%の正確率を記録し、GPT-4oを超える成果を上げました。これにより、開発者の生産性向上が期待され、AIが新たな革命を引き起こしています。

Claude 3.5 Sonnet SWE-bench Anthropic 编码AI

2026年2月2日 479

オリジナル

アリババのQwen2.5-MaxがArena-Hardランキングでトップに、GPT-4oを超えAI業界で新たな議論を引き起こす

アリババクラウドのQwen2.5-MaxモデルがArena-Hardランキングでトップに立ち、GPT-4oを超えたことで、AI業界において大きな話題となっています。この成果は、中国のAIが性能面で重要な突破を果たしたことを示し、128Kの超

Qwen2.5 阿里云国产AI GPT-4o

2026年2月2日 326

オリジナル

Anthropic Claude 3.5 Sonnet登場：プログラミング基準でGPT-4oを20%リード、開発者コミュニティで話題沸騰

AnthropicはClaude 3.5 Sonnetモデルを発表し、このモデルはSWE-bench Verified基準テストで49%のスコアを達成し、OpenAIのGPT-4oを約20%リードしました。このニュースは開発者コミュニティで

Claude 3.5 Anthropic GPT-4o 编程基准

2026年2月2日 399