DeepSeek R1の安定性が22点暴落:簡単な判断問題で全滅した真相
DeepSeek R1の安定性スコアが53.7点から31.6点へと41.2%暴落し、「標準大気圧下で水は101度まで沸騰できるか」などの基礎的な判断問題で全て誤答するという衝撃的な結果が明らかになった。
DeepSeek R1の安定性スコアが53.7点から31.6点へと41.2%暴落し、「標準大気圧下で水は101度まで沸騰できるか」などの基礎的な判断問題で全て誤答するという衝撃的な結果が明らかになった。
DeepSeek R1は今週の評価でプログラミング能力が47.4点上昇し67.9点に、長文処理能力が18.1点上昇し78.3点に達した一方で、安定性は53.7点から31.6点へと急落し、極端な性能の二極化を示した。
Winzheng Research LabがCursor、Windsurf、VS Codeの3大IDEを徹底比較し、DeepSeek-R1との組み合わせで年間コストが最大50倍の差があることを発見。VS Code + DeepSeek AP