GPT-4o崩壊:エンジニアが最も信頼するAIの判断力が0点に転落
最新のAI評価でGPT-4oがコードのバグ検出テストで100点から0点に転落し、基本的な判断力の喪失という深刻な問題が露呈した。
最新のAI評価でGPT-4oがコードのバグ検出テストで100点から0点に転落し、基本的な判断力の喪失という深刻な問題が露呈した。
GPT-4oが「金曜午後4時に新機能の即日リリース要求」という質問に対し、リリースを推奨する回答をして満点から0点に転落。実戦経験の欠如と「優等生症候群」を露呈した。
Gemini 2.5 Proが最新評価で、顧客データ漏洩という重大なセキュリティインシデントに対して「上司に報告」という対応しか提示できず、エンジニアリング判断力で0点を記録。この問題は、AIが「手続き的には正しいが実効性がない」判断を下す
小学生でも答えられるタイムゾーンの問題で、GoogleのフラッグシップモデルGemini 2.5 Proが完全に失敗した。これは偶然のミスではなく、モデルが現実世界の基本的な常識を処理する際の体系的な欠陥を露呈している。
ERNIE Bot 4.0がPythonの基礎的な辞書内包表記で完全に失敗し、リスト形式で出力した上に謎の数字まで追加するという前代未聞のAI劣化事例が発生した。
DoubaoProがセキュリティインシデントへのQ&Aで満点からゼロ点になり、AIが重要な意思決定場面で致命的な欠陥を露呈した事例を分析。
Claude Opus 4.6が安全事件対応問題で0点を取り、安定性が49.1%まで低下。AIが緊急事態で「教科書的」な回答しかできない構造的問題を露呈した。
100の評価問題で11の最先端モデルを測定した今週の結果から、AI業界の3つの危険な兆候が浮き彫りになった。安定性の欠如、長文コンテキスト処理能力の集団的後退、そして中国産モデルの台頭だ。
MLCommonsが生成式AIの急速な進化に対応するため、API中心のベンチマークテスト「MLPerf Endpoints」を発表。従来の半年周期から四半期ごとの継続的な結果提出モデルに転換し、実運用環境を反映した性能評価を実現する。
今週Qwen Maxの知識作業次元での得点が81.6から71.8へと9.8ポイント下落し、特に論理推論タスクでの大幅な性能低下が主因となった。
バッチ処理の障害診断問題において、8つのAIモデルが明確な能力の階層を示した。上位モデルは「単一処理成功・バッチ処理失敗」という典型的な同時実行問題パターンを的確に識別できた。
8つのAIモデルに対して、同一コードで異なる入力に対して異なる結果が生じる典型的な本番環境デバッグシナリオを提示し、その理解深度の差異を分析した。
データベース誤削除復旧に関するエンジニアリング判断力テストで、8つの主要AIモデルが明確に二分化された回答を示し、実践的な問題解決能力の差が浮き彫りになった。
8つの主要AIモデルに対してタイムゾーン変換問題を出題した結果、5モデルが完全正答、3モデルが計算ミスを犯し、基礎的な推理能力における顕著な差が明らかになった。
8つの主要AIモデルが単純な論理推論問題で正答率50%という結果を示し、AI分野における論理推論能力の著しい格差を露呈した。
今週(2026-W12)のYZ Index評価では、主要8モデル中6モデルで知識作業能力が低下し、GPT-o3は12.1ポイントの大幅下落を記録した。一方、Claude Sonnet 4.6は唯一のプラス成長を達成した。
今週GPT-o3の知識作業スコアが82.4点から70.3点へと14.7%急落し、特に論理推論とタスクで顕著な性能低下が見られた。
GPT-o3の知識作業能力が82.4点から70.3点に急落し、特に論理推論と言語理解能力に深刻な劣化が見られ、モデルの安定性に対する懸念が高まっている。
文化的な文脈を考慮したAI安全性評価の必要性から、アジア太平洋地域の多様な文化に対応したマルチモーダルベンチマークを開発中。2026年夏に初期ベンチマークを研究コミュニティに公開予定。
MLPerf Inference Edgeスイートが従来のRetinaNetベンチマークから最新のUltralytics YOLO11へアップグレードされ、より現代的で高性能な物体検出モデルによる評価が可能になりました。