Gemini 2.5 Pro崩壊:安定性が23点暴落、その背後にあるエンジニアリング判断力の不足
Gemini 2.5 Proの安定性スコアが1週間で22.8点も暴落し、プログラミング能力向上と引き換えに深刻な信頼性の問題を露呈した。
Gemini 2.5 Proの安定性スコアが1週間で22.8点も暴落し、プログラミング能力向上と引き換えに深刻な信頼性の問題を露呈した。
Gemini 2.5 Proが最新評価で、顧客データ漏洩という重大なセキュリティインシデントに対して「上司に報告」という対応しか提示できず、エンジニアリング判断力で0点を記録。この問題は、AIが「手続き的には正しいが実効性がない」判断を下す
小学生でも答えられるタイムゾーンの問題で、GoogleのフラッグシップモデルGemini 2.5 Proが完全に失敗した。これは偶然のミスではなく、モデルが現実世界の基本的な常識を処理する際の体系的な欠陥を露呈している。