AI评测异常に関するAIニュース | Winzheng AI ニュース

AIモデルに激震！ERNIE Botが24.7点急騰も誠実性崩壊、Gemini三連敗で16点ダウン

本日のSmoke軽量評価で、ERNIE Bot 4.5がメインランキング24.7点急騰の一方、誠実性評価がpassからfailへ転落。同時にGemini系列が三連敗、DeepSeek V4 Proも-16.1点と崩壊し、モデルイテレーション