DeepSeek V4 Pro メイン榜が16点暴落!誠実性評価が崩壊、モデルは本当に退化したのか?
DeepSeek V4 Proが本日のSmoke評価でメイン榜得点が16.1点暴落し、誠実性評価もpassからfailに転落しました。単日のランダム変動ではなく、モデルの本当の退化を示唆する可能性が高いと分析します。
DeepSeek V4 Proが本日のSmoke評価でメイン榜得点が16.1点暴落し、誠実性評価もpassからfailに転落しました。単日のランダム変動ではなく、モデルの本当の退化を示唆する可能性が高いと分析します。
Claude Opus 4.7 が本日の Smoke 評価で材料制約スコアが82.60点から66.80点へと15.8点急落し、誠実性評価も pass から warn に転じた。本記事ではこの急落が抽選による変動か真の劣化かを分析する。
本日のSmoke軽量評価で、ERNIE Bot 4.5がメインランキング24.7点急騰の一方、誠実性評価がpassからfailへ転落。同時にGemini系列が三連敗、DeepSeek V4 Proも-16.1点と崩壊し、モデルイテレーション
YZ Indexの週次評価で、かつての王者GPT-4oが素材制約次元で10.3点暴落し最下位に転落。一方、ERNIE Bot 4.0は主要指標で唯一のプラス成長を達成した。