DeepSeek V4 Pro Smokeテスト、メインボードで48.7点急騰も工程判断は28.4点暴落

DeepSeek V4 Proは本日のSmoke評価で、極端に分化した答案を提出した。メインボードのスコアは39.26から87.99へ一気に跳ね上がり、上昇幅は48.7点に達した。コード実行次元はさらに20.00から100.00へと急騰し、材料制約も10.5点の小幅上昇を見せた。しかし工程判断(サイドボード、AI補助評価)は38.40から10.00へと半減し、28.4点の下落となった。

サンプリングのばらつきか、真の退化か

Smoke評価は1日わずか10問、各次元2問のみであり、サンプル量が極めて小さく、単日のスコアが大きく変動するのは正常な現象である。しかし今回の変化は同時に2つの極端な方向で発生している:コード実行満点と工程判断崩壊が併存しており、単純なサンプリングのばらつきでは説明しがたい。コード実行問題はちょうどモデルの近期訓練の強みに命中した可能性がある一方、工程判断問題は実際の制約条件下での意思決定の不安定性を露呈している。

さらに注目すべきは、誠実性評価がfailからwarnへと変わった点である。依然としてpassの基準には達していないが、完全な不達成から観察区間へと進入した。これはモデルが有害なリクエストの拒否やハルシネーション出力の回避において改善があった一方、工程判断に必要なシステム的思考は同期して向上していないことを示している。

最近の業界動向による裏付け

DeepSeekチームは先週、V4シリーズのコード専用ファインチューニング版をリリースしたばかりで、LeetCodeとマルチターンデバッグシーンを重点的に強化している。これは本日のコード実行100点と高度に一致する。しかし同時期のコミュニティのフィードバックでは、当該モデルが複雑なシステム設計や多制約トレードオフタスクでの性能が低下していることが示されており、工程判断10点の結果と相互に裏付けが取れている。

スコア標準偏差の観点から見ると、V4 Proの安定性はわずか31.7点であり、同種の問題を複数回テストするとスコアの変動が極めて大きいことを意味する。これは「真の能力の不安定さ」であり「単発の運」ではないとの判断をさらに支持する。

重点的に注目すべきか

必要である。メインボードの87.99という高得点はユーザーを誤導しやすいが、工程判断10点と低い安定性が同時に出現していることから、モデルの実際の工程シーンでの実用性には依然として明らかな短所があると言える。本番環境への導入前には、単日のSmokeスコアのみを見るのではなく、マルチターンの一貫性テストを追加することを推奨する。

高得点は時にたまたま引いた2問にすぎず、低得点こそがモデルの真の天井である。

データ出典:YZ Index | Run #137 | 元データを見る