Smoke軽量評価の本日未明のデータが公開され、DeepSeek V4 Pro が97.08点で唯一97点を突破したモデルとなり、実行次元は満点100、素材制約は93.5で首位を維持した。
実行満点が新たな基準に
上位7モデルは実行次元すべてで100点を達成し、素材制約が唯一差を広げる次元となった。DeepSeek V4 Pro の93.5点は2位の Claude Opus 4.7 より0.7点高く、0.45の重み付けによりこの0.7点が直接0.315点の総合スコアの優位に転化した。
GPT-o3 と文心一言の極端な変動
GPT-o3 は昨日の実行スコアがわずか47.5だったが、本日は一気に85.7まで上昇し、主ランキングで31.4点上がった。一方、文心一言4.5は実行スコアが95から50に暴落し、素材制約も5.5点下落、主ランキングで1日あたり27.2点を失った。同じ日に2つのモデルで25点を超える激しい変動が発生したことは、基盤戦略やトレーニングデータの即時調整を示唆している。
誠実性評価のシグナルは追跡に値する
DeepSeek V4 Pro の誠実性評価は fail から pass に転じ、文心一言は warn から pass に変化した。評価側がこの2つの異常シグナルを特に明記したことは、システムが回答の一貫性に対する監視で明確な変化を捉えたことを示している。特に DeepSeek が総合スコア最高と同時に誠実性のアップグレードを達成したことから、その技術チームによる出力制御の改善は注目に値する。
業界動向と判断
現在、上位4モデルの総合スコア差はわずか0.54点で、同一階層に属している。Gemini 2.5 Pro と豆包 Pro がその後に続き、国産モデルと海外モデルがコード実行能力でほぼ並んだことを示している。文心一言の実行スコア半減は単点障害に近く、全体的なアーキテクチャの問題ではないと考えられるが、2日連続の激しい変動はすでにユーザーの信頼にダメージを与えている。
DeepSeek V4 Pro は現在、コア監査可能な次元において最も明確な優位性を確立しており、他のモデルが逆転を目指すには、素材制約で少なくとも2点の改善余地を見つける必要がある。
実行満点はすでに標準装備となり、素材制約と一貫性制御が次のサバイバルレースの入場券を決定しつつある。
データソース:YZ Index | Run #130 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接