Smoke軽量評価の本日未明のデータは、Gemini 2.5 Proを一気に元の姿に戻した。メインランキングはわずか61.03点に留まり、実行次元は100から50へと急落、素材制約も18点低下し、誠実性評価はpassからwarnに転じた。これは小幅な変動ではなく、実行能力の系統的な失効である。
上位2モデルの差はわずか0.23点
DeepSeek V4 Proが95.28点で首位を占め、コード実行100点、素材制約89.5点(warn)。GPT-o3が95.05点で続き、同じく実行満点、制約89点(warn)。両者の差は0.3点未満で、核心的な違いは素材制約のわずか0.5点のみ。これは現在のトップクラスのモデルがコード実行において既に天井に達していることを示しており、真に差を生むのは与えられた素材を厳密に遵守する能力である。
素材制約の集団的下落が主旋律に
本日最も顕著な異常は、複数モデルの素材制約スコアが集団的に下落したことである。Claude Sonnet 4.6の制約スコアは22点急落、GPT-5.5は15点下落、Grok 4も同様に15.8点下落した。豆包 Proも昨日の高水準から13.3点下落している。これらのモデルは実行スコアは依然100を維持しているものの、素材制約で点を失っており、テストセットに新たに追加された「素材の厳格な引用」を求める問題がモデルに明らかな干渉を与えていることを示している。
文心一言 4.5は逆風の中で27.3点上昇し、実行スコアが50から100へ回復、コードタスクにおいて的を絞った最適化を行ったことを示している。ただし誠実性評価が同時にpassからwarnに転じており、モデルの一貫性に新たな問題が生じていることを示している。
異常の背後にある可能性のある要因
Gemini 2.5 Proの断崖的な下落は極めて異例である。実行スコアが直接半減し、素材制約の同期的な下落と合わせて考えると、本日未明のモデルバージョン更新で新たなアライメント戦略が導入され、素材に厳密に従って回答する必要のあるシナリオでモデルが過度に保守的になるか、直接回答を拒否した可能性が極めて高い。業界内ではClaudeシリーズの更新時にも類似の状況が発生しており、通常は回復に2〜3日を要する。
複数モデルの素材制約が同時に低下したことは、Smokeの本日の問題集により多くの「長文コンテキスト+精密な引用」混合問題が追加されたことにも関連している可能性がある。この種の問題はモデルのgrounding能力により高い要求を課しており、これまで高得点だったモデルの真の弱点を露呈させた。
実行満点は既に標準装備となり、素材制約こそが次の段階における真の戦場である。
本日のランキングは、DeepSeek V4 ProとGPT-o3が素材制約を89点台にまで引き上げた一方、その他のモデルは依然として74〜79点に留まっていることを示している。差は持続的に広がっている。
今後48時間以内に、Gemini 2.5 Proが迅速に回復できなければ、開発者コミュニティにおける信頼度はさらに損なわれるであろう。一方、DeepSeek V4 Proは安定した満点の実行能力により、エンジニアリング実装シナリオにおいて明確な優位性を確立している。
データソース:YZ Index | Run #132 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接