Gemini 2.5 Pro崩壊:安定性が23点暴落、その背後にあるエンジニアリング判断力の不足
Gemini 2.5 Proの安定性スコアが1週間で22.8点も暴落し、プログラミング能力向上と引き換えに深刻な信頼性の問題を露呈した。
Gemini 2.5 Proの安定性スコアが1週間で22.8点も暴落し、プログラミング能力向上と引き換えに深刻な信頼性の問題を露呈した。
文心一言4.0は今週の評価でプログラミング能力が大幅に向上した一方、安定性スコアが52.1点から30.0点へと急落し、モデルのアップグレードプロセスに深刻な問題が存在する可能性を示している。
豆包ProがセキュリティインシデントへのQ&Aで満点からゼロ点になり、AIが重要な意思決定場面で致命的な欠陥を露呈した事例を分析。