DeepSeek R1の安定性が22点暴落：簡単な判断問題で全滅した真相

2026年3月22日 296 約5分 Winzheng Index

DeepSeek R1 稳定性测试 AI推理失败模型退化工程可靠性

「推論能力が超強力」と謳うAIモデルが、「常圧下で水を101度まで沸騰させられるか」すら正しく判断できないとき、複雑な本番環境の問題を処理できると信じられるだろうか？DeepSeek R1の今週のテスト結果は驚愕すべきものだった：安定性スコアが53.7点から31.6点へと暴落し、下落率は41.2%に達した。

衝撃的な失敗：AIが基本的な判断力を失ったとき

最も衝撃的なのはスコア自体ではなく、失点した問題のタイプだ。元のテストログによると、DeepSeek R1は以下の基礎問題で全て誤答した：

問題1：「標準大気圧下で、水を101摂氏度まで沸騰させることができますか？」
正解：できない
R1の回答：できる（誤り）

問題2：「Pythonで 0.1 + 0.2 == 0.3 の結果は？」
正解：False
R1の回答：True（誤り）

これは偶然のミスではない。連続5回のテストで、R1はこれらの基礎判断問題での誤答率が80%に達した。さらに奇妙なのは、同じ問題で先週のテストでは、R1の正答率は90%以上を維持していたことだ。

データの矛盾：プログラミング能力は急上昇、基礎判断は崩壊

理解に苦しむのは、安定性が崩壊する一方で、R1の他の指標は急上昇していることだ：

プログラミング能力：20.5点から67.9点へ急上昇（+230%）
長文コンテキスト処理：60.2点から78.3点へ向上（+30%）
コストパフォーマンス指数：69.4点から88.1点へ上昇（+27%）

この「統合失調症」的なパフォーマンスは残酷な真実を露呈している：DeepSeekは特定の指標向上を追求する中で、モデルの基礎的な推論の一貫性を犠牲にした可能性がある。

技術分析：過度な最適化の代価

エンジニアリングの観点から分析すると、この現象は通常3つの原因に由来する：

1. 学習データの汚染
R1は新たなファインチューニングで大量のプログラミング関連データを導入した可能性があるが、これらのデータが基礎常識知識と衝突を起こした。モデルの重みがプログラミングタスクに傾いたとき、基礎的な世界知識が「希釈」されてしまった。

2. 推論経路の混乱
R1の思考連鎖を分析すると、「水が101度まで沸騰できるか」に答える際、なんと「プログラミングにおける浮動小数点の精度」の概念を導入し、数値計算の観点から物理現象を説明しようとしていた。このような領域を跨いだ誤った類推は、まさにモデルの推論境界が曖昧になっていることを示している。

3. 評価指向の過学習
R1のプログラミング能力の急上昇は、特定のベンチマークに対する最適化の結果である可能性が高い。しかし、この「受験勉強」式のトレーニングは、モデルから基礎的事実を把握する能力を奪ってしまった。

業界への警鐘：安定性はAI応用の生命線

他の主要モデルの安定性パフォーマンスとの比較：

GPT-4：安定性スコアは85-90点の範囲を維持、変動は5%未満
Claude 3：安定性スコア82-88点、基礎判断問題の正答率99%
Gemini Pro：安定性スコア78-84点、離れ業的なエラーは極めて稀

DeepSeek R1の31.6点という安定性スコアは、すでに本番環境での応用の合格ラインを下回っている。AIアシスタントが今日「水は101度まで沸騰できる」と言い、明日「0.1+0.2は0.3に等しい」と言ったら、重要な意思決定にそれを使う勇気があるだろうか？

結論：表面的な指標に惑わされるな

DeepSeek R1の今回の「事故」は業界全体に警鐘を鳴らした。SOTA（State of the Art）を追求する道において、最も基本的な要求——一貫性と信頼性を無視してはならない。

プログラミング能力が20点から67点に上がったのは確かに印象的だが、中学校の物理常識すら間違えるなら、このような「進歩」に何の意味があるだろうか？あるベテランAI研究者の評価の通り：

「不安定なAIシステムは、精度は高いが頻繁に暴発する銃のようなものだ——見た目は先進的だが、使えば命取りになる。」

予測：もしDeepSeekが次のバージョンで安定性の問題を解決できなければ、R1は「高得点だが無能」の典型例となり、AI発展史の恥辱の柱に釘付けにされるだろう。

データソース：YZ Index | Run #37 | 元データを見る