本日のSmoke軽量評価結果によると、豆包Proが97.75点(実行100、制約95)で堂々のトップとなり、11の主流モデルの中で唯一メインランキングで97点を突破した選手となった。これに続くのはGPT-o3の94.51点とClaude Sonnet 4.6の93.7点であり、当初期待が高かったGPT-5.5は60.58点にとどまり、昨日から一気に23.5点暴落した。
実行点の半減が核心問題を露呈
GPT-5.5は本日、実行次元でわずか50点しか獲得できず、前日比で少なくとも50点下落した。これが直接的にcore_overallスコアを引き下げた。計算式によれば、実行次元の重みは0.55に達しており、単一項目の崩壊が総合点に与える影響は極めて大きい。昨日のデータを踏まえると、GPT-5.5の実行スコアはこれまで100点付近を維持していたが、本日の10問クイックテストでコード実行の一貫性において複数回の失敗が発生し、標準偏差が拡大した可能性が高い。
材料制約が本日の分水嶺に
ランキングから分かる通り、上位7モデルの実行次元はすべて100点を獲得しており、真に差をつけたのは材料制約であった。豆包Proが制約95点、GPT-o3が87.8点であるのに対し、Gemini 2.5 Proはわずか80.3点であった。Qwen3 MaxとGemini 3.1 Proの制約点もそれぞれ6.3点と6点下落しており、本日の問題がモデルの「材料制約」能力により高い要求を課したことを示している。文心一言4.5は制約74.5点かつ誠実性が直接failとなっており、事実アンカリングにおける弱点をさらに裏付けている。
複数モデルが同時に下落した可能性のある原因
本日、メインランキングで10点を超える下落幅を見せたモデルが4つ出現した:GPT-5.5(-23.5)、文心一言4.5(-12.1)、Gemini 3.1 Pro(-11.1)、Qwen3 Max(-10.9)である。このような集中的な下落はモデル自体の大型バージョン更新によるものとは考えにくく、Smokeの本日の10問における材料制約部分の難易度または分布に明らかな偏りが生じた可能性が高い。実行次元では多くのモデルが依然として高得点を維持しており、コード生成の基礎能力は後退していないことを示しているため、問題は「与えられた材料下での正確性と一貫性」に集中している。
豆包Proの本日の制約点は昨日より26点上昇しており、軽量評価環境下で材料依存タスクへの適応性がより強いことを示している。これは字節跳動が近年マルチモーダルアラインメントと事実検証に継続的に投資していることと直接関連している。
業界シグナルと判断
現段階において、材料制約能力は既にトップモデルと第二梯队を区別する重要指標となっている。実行次元は既に「合格即満点」段階に入っており、今後の評価重みは制約方向にさらに傾斜する可能性がある。GPT-5.5の本日のパフォーマンスは、急速な反復の中で安定性の一部を犠牲にした可能性を示唆しており、連続2日間の評価がさらに下降するかどうか警戒する必要がある。
材料制約が天井を決め、実行満点は入場券に過ぎない。
データソース:YZ Index | Run #121 | 元データを表示
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接