Gemini 2.5 Proの判断力がゼロに:P0級セキュリティインシデントで「報告すればよし」という選択
Gemini 2.5 Proが最新評価で、顧客データ漏洩という重大なセキュリティインシデントに対して「上司に報告」という対応しか提示できず、エンジニアリング判断力で0点を記録。この問題は、AIが「手続き的には正しいが実効性がない」判断を下す
Gemini 2.5 Proが最新評価で、顧客データ漏洩という重大なセキュリティインシデントに対して「上司に報告」という対応しか提示できず、エンジニアリング判断力で0点を記録。この問題は、AIが「手続き的には正しいが実効性がない」判断を下す
Claude Opus 4.6が安全事件対応問題で0点を取り、安定性が49.1%まで低下。AIが緊急事態で「教科書的」な回答しかできない構造的問題を露呈した。