DeepSeek V4 Pro は本日の Smoke 評価で異例の答案を提出した:信頼性評価が Fail から直接 Pass へ転換し、メインランキングのスコアは 74.00 から 97.08 へと、単日で 23.1 点の上昇を記録した。中でも素材制約は 70.00 から 93.50 へとジャンプし、エンジニアリング判断とタスク表現の2つのサブランキング指標も各々20点上昇した。
抽選による変動か、それとも真の改善か
Smoke 評価は1日10題のみで、1次元あたり2題と、サンプル数が極めて少なく、単日スコアの標準偏差はもとより高めである。素材制約次元は昨日70点、今日93.5点で、差は23点超に達しているが、正常な乱数範囲内に収まる。コード実行も 95 から 100 に上昇しているが、これも本日簡単な計算問題が2題引かれた結果かもしれない。
しかし、信頼性評価が Fail から直接合格ラインを越えたことは、より深い問題を示唆している。信頼性評価は参入の最低基準であり、Fail は通常、事実確認や有害なリクエストの拒否において明確な違反があったことを意味する。本日 Pass に転じたのは、少なくとも本日の10題では同種のエラーが発生しなかったことを示す。短期的には、この「合格ライン突破」は、モデル基盤のセキュリティアライメントに根本的な変化が生じたというよりも、出題が敏感なシナリオを避けた結果である可能性が高い。
最近の業界動向の影響
DeepSeek チームは先週、V4 シリーズの指示ファインチューニングパッチをリリースしたばかりで、幻覚率の低減とツール呼び出し精度の向上を主眼に置いている。パッチの説明には「事実整合性チェックの強化」が明記されている。パッチがすでにオンラインでロールアウトされている場合、本日の素材制約と信頼性評価の回復はこのアップデートと関連している可能性がある。ただし、パッチは同時に一部のオープンエンド回答の多様性を低下させており、これはエンジニアリング判断とタスク表現の2つのサブランキング(AI 補助評価)が依然として30点という低水準に留まっていることと符合する。
もう一つの背景として、DeepSeek は最近、コストとオープンソース戦略において競合への圧力を強め続けており、コミュニティではモデルの「安全性と能力のバランス」に対する疑問の声が高まっている。本日の信頼性評価の合格は、短期的には世論の一部の圧力を緩和する可能性があるが、単日のデータだけでは問題が解決されたとは証明できない。
重点的に注視すべきか
注視すべきである。特にこのモデルの安定性次元に注目する必要がある。現在判明している安定性はわずか31.7点であり、同種の問題を複数回回答した際のスコアの変動が極めて大きいことを意味する。単日でメインランキングが23点急騰したのは、能力曲線が真に上方シフトしたというより、この高い変動性の再度の現れである可能性が高い。
少なくとも3日間連続で Smoke 評価と完全な評価データを観察することを推奨する。信頼性評価が連続して Pass を維持し、素材制約が90点以上で安定するならば、今回の回復をトレンドと見なすことを検討してよい。3日以内に再度 Fail が出現するなら、ランダムノイズと判定できる。
単日の Smoke は心電図の一度の揺らぎのようなもの、本当に見るべきは、連続した複数日の QRS 波形が正常に戻るかどうかである。
データソース:YZ Index | Run #130 | 元データを確認
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接