工程判断力に関するニュース

レビュー

Grok 3の安定性が22.5点暴落：AIが実際のエンジニアリング場面に遭遇すると化けの皮が剥がれる

Grok 3の安定性スコアが54.2点から31.7点へと41.5%も暴落し、プログラミング能力が向上する一方で、実務判断力の欠如というAIモデルの致命的な弱点が露呈した。

Grok 3 稳定性测试工程判断力 AI评测

2026年3月22日 447

レビュー

Gemini 2.5 Pro崩壊：安定性が23点暴落、その背後にあるエンジニアリング判断力の不足

Gemini 2.5 Proの安定性スコアが1週間で22.8点も暴落し、プログラミング能力向上と引き換えに深刻な信頼性の問題を露呈した。

Gemini 2.5 Pro 模型稳定性 Google AI 工程判断力

2026年3月22日 445

レビュー

11のAIに同じ問題を解かせた結果：豆包100点、8モデルが0点

同一のエンジニアリング判断問題を11のAIモデルに解かせたところ、豆包Proが100点満点を獲得した一方、ClaudeやGPT-4oを含む8つのモデルが0点という結果になり、実務的な推理能力における大きな差が明らかになった。

豆包Pro 工程判断力群发功能调试 AI推理能力

2026年3月21日 386

レビュー

11個のAIが同じ問題に答えた結果、真実を発見したのは1つだけ：コードにバグはない

6ヶ月間正常に動作していたPythonコードが突然エラーを出したため、11個の最先端AIモデルにバグを探させたところ、コードに問題がないことを発見したのは1つだけだった。これは、AIが暗黙の前提に過度に迎合する危険性を示している。

GPT-o3 Claude AI测试模型对比

2026年3月21日 278

レビュー

同じ問題をAI11体に解かせたら、7体が不合格：誰が賢いふりをしているのか？

ユーザーデータ漏洩の緊急対応について11の主要AIモデルをテストしたところ、60%以上が「報告優先」を選び、国産AIモデルのみが「即座にサービス停止」という正解を導き出した。

DeepSeek Claude 安全事件响应工程判断力

2026年3月21日 307

レビュー

GPT-4oが厳格題で0点大失敗：AIが金曜リリースという死亡フラグに遭遇した時

GPT-4oが「金曜午後4時に新機能の即日リリース要求」という質問に対し、リリースを推奨する回答をして満点から0点に転落。実戦経験の欠如と「優等生症候群」を露呈した。

GPT-4o 工程判断力周五发布生产事故

2026年3月21日 213

レビュー

Gemini 2.5 Proの判断力がゼロに：P0級セキュリティインシデントで「報告すればよし」という選択

Gemini 2.5 Proが最新評価で、顧客データ漏洩という重大なセキュリティインシデントに対して「上司に報告」という対応しか提示できず、エンジニアリング判断力で0点を記録。この問題は、AIが「手続き的には正しいが実効性がない」判断を下す

Gemini 2.5 Pro 工程判断力数据安全事故 AI决策失误

2026年3月21日 319

レビュー

Gemini 2.5 Proのタイムゾーン推論100点から0点へ：大規模言語モデルの常識の盲点はどれほど恐ろしいか

小学生でも答えられるタイムゾーンの問題で、GoogleのフラッグシップモデルGemini 2.5 Proが完全に失敗した。これは偶然のミスではなく、モデルが現実世界の基本的な常識を処理する際の体系的な欠陥を露呈している。

Gemini 2.5 Pro 严格题测试时区推理模型可靠性

2026年3月21日 225

レビュー

豆包Pro満点問題でゼロ点：AIが実際のセキュリティインシデントで集団沈黙する理由

豆包ProがセキュリティインシデントへのQ&Aで満点からゼロ点になり、AIが重要な意思決定場面で致命的な欠陥を露呈した事例を分析。

豆包Pro 工程判断力安全事件响应 AI测评

2026年3月21日 323

レビュー

Claude 4.6が崩壊：満点の安全問題で全滅した背後にある致命的欠陥

Claude Opus 4.6が安全事件対応問題で0点を取り、安定性が49.1%まで低下。AIが緊急事態で「教科書的」な回答しかできない構造的問題を露呈した。

Claude Opus 4.6 工程判断力安全事件响应 AI决策失误

2026年3月21日 241

工程判断力 に関するニュース

Grok 3の安定性が22.5点暴落：AIが実際のエンジニアリング場面に遭遇すると化けの皮が剥がれる

Gemini 2.5 Pro崩壊：安定性が23点暴落、その背後にあるエンジニアリング判断力の不足

11のAIに同じ問題を解かせた結果：豆包100点、8モデルが0点

11個のAIが同じ問題に答えた結果、真実を発見したのは1つだけ：コードにバグはない

同じ問題をAI11体に解かせたら、7体が不合格：誰が賢いふりをしているのか？

GPT-4oが厳格題で0点大失敗：AIが金曜リリースという死亡フラグに遭遇した時

Gemini 2.5 Proの判断力がゼロに：P0級セキュリティインシデントで「報告すればよし」という選択

Gemini 2.5 Proのタイムゾーン推論100点から0点へ：大規模言語モデルの常識の盲点はどれほど恐ろしいか

豆包Pro満点問題でゼロ点：AIが実際のセキュリティインシデントで集団沈黙する理由

Claude 4.6が崩壊：満点の安全問題で全滅した背後にある致命的欠陥

工程判断力に関するニュース