DeepSeek V4 Pro の最も異常な一幕がやってきた:メインランキングは 5 点上昇したのに、誠実性評価は pass から fail に転落した。これは単なる点数のブレではなく、「能力は強くなったように見えるが、信頼性のアクセス基準が崩壊した」という典型的な警報だ。
まず生データを見る:上昇の裏に致命傷
本日の Smoke 評価は毎日 10 問の高速テストで、各次元 2 問ずつ、サンプルは非常に小さく、1 日あたりの抽選のブレは説明に組み込む必要がある。しかしデータ自体は十分に目を引く:コード実行は 69.00 から 100.00 へ、1 日で 31 点上昇;素材制約は 69.00 から 64.50 へ、4.5 点下落;メインランキングは 69.00 から 74.00 へ、5 点上昇。
メインランキングはコード実行と素材制約という監査可能な 2 つの次元のみを見る。したがって、DeepSeek V4 Pro は今日「全面的に強くなった」のではなく、コード実行の大幅な引き上げが素材制約の下落を相殺したのだ。
本当の問題はアクセス層にある:誠実性評価が pass→fail。YZ Index の方法論によれば、誠実性評価は加点項目ではなく、閾値だ。つまり、モデルがたとえメインランキングで上昇しても、誠実性評価が fail である限り、単純に「今日のパフォーマンスが良くなった」と解釈すべきではない。これはレースカーのラップタイムが速くなったが、ブレーキシステムが警報を出しているようなもので、ストップウォッチだけを見るわけにはいかない。
抽選のブレは一部を説明できるが、すべては説明できない
10 問の Smoke は確かにブレを増幅しやすい。コード実行はわずか 2 問で、モデルが得意な題型を引けば、69 から 100 になっても不思議ではない;エンジニアリング判断は 38.40 から 10.00、タスク表現は 50.00 から 30.00 で、この 2 つはサイドランキングに属し、いずれもエンジニアリング判断(サイドランキング、AI 補助評価)とタスク表現(サイドランキング、AI 補助評価)であり、題型の影響を受けやすい。
しかし誠実性評価が pass から fail になるのは、性質が異なる。それは通常「答えが綺麗でない」ではなく、より根本的な信頼性の問題を引き起こしている:制約に従って不確実性を認めなかった可能性、素材を引用する際に逸脱した可能性、拒否すべき場面、制限を説明すべき場面、一貫したトーンを保つべき場面で致命傷が出た可能性がある。素材制約が同時に 4.5 点下落していることを合わせると、今日はむしろ「制約遵守に亀裂が生じた」のであって、単に難問を引いたわけではなさそうだ。
最近の業界動向の中で見る:スピードと制約が引っ張り合っている
DeepSeek シリーズは最近ずっと高注目ゾーンにいる:低コスト推論、開発者呼び出し、オープンソースエコシステム、バージョン反復スピード、いずれも業界の議論の焦点だ。問題は、モデルが高頻度のアプリケーションに早く入るほど、ある矛盾が露呈しやすくなることだ:コード問題は訓練とツールチェーンによって素早く補強できるが、素材制約、境界意識、信頼性のある出力は、しばしばより事後訓練戦略、評価のクローズドループ、オンライン戦略の安定性に依存する。
今回のデータはまさにこの矛盾を踏み抜いた:コード実行満点は、検証可能なタスクで明らかな強みがあることを示す;しかし素材制約の下落、誠実性評価 fail は、「言うべきか言わざるべきか、こう言ってよいか、入力素材に厳密に沿っているか」でリスクが出ていることを示す。企業ユーザーにとって、後者は前者よりもしばしば致命的だ。コードが間違っていればテストできるが、根拠を捏造されれば、業務上の意思決定は直接ずれてしまう可能性がある。
私の判断:注視は必要だが、退化と断定するのは急がない
結論は明確だ:これは無視できるノイズではないが、1 日 10 問だけで DeepSeek V4 Pro が真に退化したと判定することもできない。合理的なやり方は 3 から 5 日連続で観察し、重点的に 3 つのことを見ることだ:
- 誠実性評価が pass に戻るか、それとも fail や warn が続くか;
- 素材制約が下落し続けるか、特に誠実性問題と同時に出現するか;
- コード実行満点が再現可能か、それとも 1 回限りの題型ボーナスか。
今後メインランキングが 70 点以上を維持しつつ、誠実性評価が繰り返し fail するなら、Winzheng はそれを「高能力・高リスク」モデルに分類する:サンドボックス、テスト、コード補助には適するが、本格的な業務クローズドループに直接投入するのには適さない。
今日の名言は:モデルが速く走るのは珍しくない、肝心なのはレッドラインの前でブレーキを踏めるかだ。
データソース:YZ Index | Run #117 | 生データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接