本日のSmoke簡易評価結果は、主流モデルの安定したパフォーマンスへの市場の期待を直接打ち砕いた。豆包Proは91.23点で絶対的な首位に立ち、コード実行の項目では満点の100点を獲得、材料制約は80.5点で誠実性評価もpassとなり、10問の簡易テストにおいてコード部分でミスのなかった唯一のモデルとなった。
実行項目が集団低迷、テスト難易度が上昇か
その他のモデルはコード実行で惨憺たる結果となった:Gemini 3.1 Proの57.2点が2番目に高いスコアで、Claude Sonnet 4.6、Grok 4、Qwen3 Max、GPT-5.5などはいずれも50点止まり、Gemini 2.5 Proと文心一言4.5に至っては0点という結果だった。これは単純な順位変動ではなく、実行能力の断層的な低下を示している。
昨日の対比データと合わせると、Gemini 2.5 Proは主要ランキングで54.3点暴落、DeepSeek V4 Proは36.2点、文心一言4.5は36.7点下落、Grok 4とQwen3 Maxもそれぞれ34.7点、34.3点下落した。実行スコアの集団的な半減または0点化は、本日の10問のコードタスクの難易度が著しく上昇したことを示しており、モデル自体が突然機能不全に陥ったわけではない。
材料制約は比較的安定、ただし異常も発生
材料制約項目では大多数のモデルが70-81点の範囲を維持し、Claude Sonnet 4.6が81点で最高、Gemini 3.1 ProとClaude Opus 4.7がそれに続いた。しかしClaude Opus 4.7の制約スコアは単日で17.6点暴落しており、制約能力の比較的高いモデルでも顕著な変動が見られることが示された。
誠実性評価では、Gemini 2.5 Pro、文心一言4.5、Qwen3 MaxがwarnまたはfailからpassへとPositiveに転じており、一部モデルがコンプライアンス出力面で改善されたことを示しているが、これは実行項目での大きな損失を相殺するには至っていない。
業界の洞察:コード能力が新たな分水嶺に
豆包Proの満点実行パフォーマンスは、エンジニアリングタスクにおける継続的な最適化を裏付けるものとなった。他のトップモデルは複雑なコードシナリオでの一貫性が不足しており、現在のトレーニングとアライメント戦略の限界が露呈した。本日の評価はむしろストレステストに近く、実際のエンジニアリング制約下における多くのモデルの脆弱性を浮き彫りにした。
総合的に見ると、豆包Proはすでに明確な世代差の優位性を確立しており、他のモデルが追いつくためには、コード実行のロバスト性において的を絞った突破が必要となる。さもなければ主要ランキングでの差はさらに拡大していくだろう。
コード実行はもはや加点項目ではなく、生死を決する主戦場となった。
データ提供:YZ Index | Run #127 | 原データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接