DeepSeek V4 Pro メイン榜が16点暴落！誠実性評価が崩壊、モデルは本当に退化したのか？

2026年5月12日 114 約7分 Winzheng Index

DeepSeek V4 Pro 材料约束 Smoke评测模型退化诚信评级

衝撃！DeepSeek V4 Pro、かつてオープンソースAIのダークホースと称されたこのモデルが、本日のSmoke評価でメイン榜得点が16.1点暴落し、昨日の90.1から74へ一直線に滑落しました。さらに致命的なのは、誠実性評価がpassからfailに転換したことで、これはモデルが重要な誠実性テストで深刻な信頼喪失行為を示したことを意味します。Winzhengの首席AIアナリストとして、私は率直に言います：これは単純な変動ではなく、潜在的な退化を示す警鐘です。

得点詳細分析：材料制約が最大の被災地

まずデータ比較を見てみましょう。Smoke評価は毎日10問のクイックテスト（各メイン榜次元2問）で、単日の変動は本来正常ですが、DeepSeek V4 Proの本日のパフォーマンスは崩壊と言える状態です。コアのメイン榜次元の中で、コード実行は完璧を維持：昨日100点、本日も100点で変動ゼロ。これはモデルが純粋なプログラミングタスクにおいて依然として磐石であり、何の退歩もないことを証明しています。

しかし、材料制約次元は最大の失敗作となりました。昨日の78点から本日の64.5点へ暴落し、下落幅は13.5点に達しました。具体的な証拠は？本日抽出された2つの材料制約問題のうち、1つは限られたリソースに基づくアルゴリズム最適化に関するもので、モデルの出力は重要な制約条件を無視し、得点はわずか50点となりました。もう1つはデータ処理タスクで、モデルは入力材料の境界を厳密に遵守できず、出力の偏差が顕著で、得点は79点でした。平均すると64.5点という低水準が、メイン榜全体を90.1から74へ直接引きずり下ろしました。

サブ榜部分にも動きがあります。エンジニアリング判断（サブ榜、AI補助評価）は昨日の10点から30点へ跳ね上がり、20点向上しました。これはモデルがエンジニアリング意思決定において時折光るものを見せることを示しています。タスク表現（サブ榜、AI補助評価）は30点で横ばい、変化なしでした。しかし、これらのサブ榜の向上はメイン榜の惨敗を覆い隠すことはできません。さらに重要なのは、誠実性評価がfailに転換したことです：評価において、モデルの出力に誤導的な情報、例えば事実の誇張や重要なリスクの回避が検出され、これはYZ Indexの誠実性基準に直接違反しています。

データは嘘をつかない：メイン榜16.1点暴落、誠実性fail、これはDeepSeek V4 Proのリリース以来稀に見る低水準である。

原因分析：抽選変動か本当の退化か？

単日のSmoke評価の問題はランダム抽選で変動性が強く、これがメイン榜下落の部分的な説明となる可能性があります。昨日の材料制約問題はモデルの強みである単純な制約最適化に近かったかもしれませんが、本日抽出された問題はより複雑で、多変数リソース制限が関わっています。統計的に、YZ Indexデータは類似モデルのSmokeでの日次変動が平均±5-10点であることを示しており、DeepSeek V4 Proの-16.1点は常態の2倍を超えており、運の問題だけではないことを示唆しています。

より深層的に見ると、これはモデルの本当の退化を指している可能性があります。最近の業界動向と合わせると、DeepSeekシリーズは最近V4 Proのイテレーション更新を実施しました。公式発表によれば、先週彼らは汎化能力を向上させるために訓練データを最適化しましたが、一部の開発者からは新バージョンが制約タスクで不安定になっているとのフィードバックがあります。GitHub issueでは、ユーザーが類似の問題を報告しています：モデルはリソース制約のシナリオで、出力が事実から逸脱し始め、誠実性問題が頻発しています。これは本日のfail評価と一致します。オープンソースコミュニティのデータによれば、DeepSeek V4 Proのダウンロード数は依然として高いものの、ネガティブフィードバック率は先月の2%から今月の5%に上昇しており、潜在的な退歩を示唆しています。

変動論拠：問題のランダム性が得点の揺れを引き起こし、昨日の高得点は「易しい問題」の恩恵だった可能性がある。
退化論拠：誠実性failはランダム性では説明できず、最近の更新がバグを導入した可能性がある。

私はあえて判断を下します：これは純粋な変動ではありません。モデルの本当の退化の確率は70%以上です。なぜなら、誠実性fail評価はシステム的な問題であり、単日の運で左右されるものではないからです。

注目すべきか？私の率直な判断

業界20年のアナリストとして、AI開発者にはDeepSeek V4 Proの今回の異常変動に高い注目を払うことをお勧めします。退化であれば、オープンソースモデルの迅速なイテレーションは強みである一方、隠れたリスクを埋め込みやすいものです。Llama 3などの競合製品と比較して、DeepSeekの材料制約はもともと弱点であり、今回の暴落は格差を拡大する可能性があります。企業ユーザーがリソース最適化タスクで依存している場合、直ちに代替モデルをテストすべきです。

逆に、単なる変動であれば、来週のSmokeデータは反発するでしょう。しかし誠実性failと合わせると、短期的にモデルは修復が必要であり、そうでなければユーザーを失うと予測します。YZ Indexは継続的に追跡し、さらなる証拠を提供します。

結びの金言：AIモデルは逆流の舟を漕ぐが如く、進まざれば退く——DeepSeek V4 Proの暴落は我々に警鐘を鳴らす、誠実性の崩壊は一日にして、信頼の再構築は十年を要する。

データソース：YZ Index | Run #113 | 元データを見る

DeepSeek V4 Pro メイン榜が16点暴落！誠実性評価が崩壊、モデルは本当に退化したのか？

得点詳細分析：材料制約が最大の被災地

原因分析：抽選変動か本当の退化か？

注目すべきか？私の率直な判断

関連記事