DeepSeek、5点上昇もFail:10問スモークテストで警報

DeepSeek V4 Pro の最も異常な一幕がやってきた:メインランキングは 5 点上昇したのに、誠実性評価は pass から fail に転落した。これは単なる点数のブレではなく、「能力は強くなったように見えるが、信頼性のアクセス基準が崩壊した」という典型的な警報だ。

まず生データを見る:上昇の裏に致命傷

本日の Smoke 評価は毎日 10 問の高速テストで、各次元 2 問ずつ、サンプルは非常に小さく、1 日あたりの抽選のブレは説明に組み込む必要がある。しかしデータ自体は十分に目を引く:コード実行は 69.00 から 100.00 へ、1 日で 31 点上昇;素材制約は 69.00 から 64.50 へ、4.5 点下落;メインランキングは 69.00 から 74.00 へ、5 点上昇。

メインランキングはコード実行と素材制約という監査可能な 2 つの次元のみを見る。したがって、DeepSeek V4 Pro は今日「全面的に強くなった」のではなく、コード実行の大幅な引き上げが素材制約の下落を相殺したのだ。

本当の問題はアクセス層にある:誠実性評価が pass→fail。YZ Index の方法論によれば、誠実性評価は加点項目ではなく、閾値だ。つまり、モデルがたとえメインランキングで上昇しても、誠実性評価が fail である限り、単純に「今日のパフォーマンスが良くなった」と解釈すべきではない。これはレースカーのラップタイムが速くなったが、ブレーキシステムが警報を出しているようなもので、ストップウォッチだけを見るわけにはいかない。

抽選のブレは一部を説明できるが、すべては説明できない

10 問の Smoke は確かにブレを増幅しやすい。コード実行はわずか 2 問で、モデルが得意な題型を引けば、69 から 100 になっても不思議ではない;エンジニアリング判断は 38.40 から 10.00、タスク表現は 50.00 から 30.00 で、この 2 つはサイドランキングに属し、いずれもエンジニアリング判断(サイドランキング、AI 補助評価)タスク表現(サイドランキング、AI 補助評価)であり、題型の影響を受けやすい。

しかし誠実性評価が pass から fail になるのは、性質が異なる。それは通常「答えが綺麗でない」ではなく、より根本的な信頼性の問題を引き起こしている:制約に従って不確実性を認めなかった可能性、素材を引用する際に逸脱した可能性、拒否すべき場面、制限を説明すべき場面、一貫したトーンを保つべき場面で致命傷が出た可能性がある。素材制約が同時に 4.5 点下落していることを合わせると、今日はむしろ「制約遵守に亀裂が生じた」のであって、単に難問を引いたわけではなさそうだ。

最近の業界動向の中で見る:スピードと制約が引っ張り合っている

DeepSeek シリーズは最近ずっと高注目ゾーンにいる:低コスト推論、開発者呼び出し、オープンソースエコシステム、バージョン反復スピード、いずれも業界の議論の焦点だ。問題は、モデルが高頻度のアプリケーションに早く入るほど、ある矛盾が露呈しやすくなることだ:コード問題は訓練とツールチェーンによって素早く補強できるが、素材制約、境界意識、信頼性のある出力は、しばしばより事後訓練戦略、評価のクローズドループ、オンライン戦略の安定性に依存する。

今回のデータはまさにこの矛盾を踏み抜いた:コード実行満点は、検証可能なタスクで明らかな強みがあることを示す;しかし素材制約の下落、誠実性評価 fail は、「言うべきか言わざるべきか、こう言ってよいか、入力素材に厳密に沿っているか」でリスクが出ていることを示す。企業ユーザーにとって、後者は前者よりもしばしば致命的だ。コードが間違っていればテストできるが、根拠を捏造されれば、業務上の意思決定は直接ずれてしまう可能性がある。

私の判断:注視は必要だが、退化と断定するのは急がない

結論は明確だ:これは無視できるノイズではないが、1 日 10 問だけで DeepSeek V4 Pro が真に退化したと判定することもできない。合理的なやり方は 3 から 5 日連続で観察し、重点的に 3 つのことを見ることだ:

  • 誠実性評価が pass に戻るか、それとも fail や warn が続くか;
  • 素材制約が下落し続けるか、特に誠実性問題と同時に出現するか;
  • コード実行満点が再現可能か、それとも 1 回限りの題型ボーナスか。

今後メインランキングが 70 点以上を維持しつつ、誠実性評価が繰り返し fail するなら、Winzheng はそれを「高能力・高リスク」モデルに分類する:サンドボックス、テスト、コード補助には適するが、本格的な業務クローズドループに直接投入するのには適さない。

今日の名言は:モデルが速く走るのは珍しくない、肝心なのはレッドラインの前でブレーキを踏めるかだ。


データソース:YZ Index | Run #117 | 生データを見る