Smoke本日の評価で最も直接的に判明したのは、11モデルの素材制約次元が集団的に崩壊し、平均下落幅が15点を超えたことである。コア計算式の下で、主要ランキングの成績が制約分に直接引きずられ、上位7位がすべて82点台から脱落する結果となった。
実行満点が制約危機を覆い隠す
すべてのモデルでコード実行は依然100点を維持しており、これはモデルがコード生成時の論理能力では退化していないことを示している。真に差を広げているのは素材制約である:Claude Opus 4.7、Sonnet 4.6、GPT-o3の3モデルが並んで59.5点となり、warnマークが付けられた;文心一言、Geminiシリーズ、Grok 4はfailレンジまで落ち込んだ。実行と制約の巨大な落差は、モデルが「コードは書ける」が「内容の真実性は保証できない」という問題が深刻化していることを示している。
昨日比較が崖崩れ的下落を明らかに
昨日のデータと比較すると、文心一言4.5の主要ランキングは14.5点暴落し、制約は-15、誠実性はwarnからfailへ転落;DeepSeek V4 Pro の制約は31.7点暴落し、単日最大の単項下落幅を記録;GPT-o3の制約は-29.5点、主要ランキングは-13.3点。このように集中した下落幅は、ランダム変動では説明し難く、テストセットが情報源の引用と事実確認に対する要求を突然厳格化した可能性が高い。
実行能力が既に天井に近づく一方、制約能力が継続的に陥落することで、モデルの実用性の天井が再定義されつつある。
業界動向と根本原因
現在のトレーニングプロセスは長文脈生成と創造的出力をより重視しているが、報酬メカニズムは「引用の正確性、ハルシネーション拒否」という行動への動機付けが不足している。複数のラボがRLHF段階で事実確認サンプルの比率を減らした結果、外部素材の裏付けを必要とする問題に直面した際、モデルは細部を捏造する傾向を示している。本日の評価でQwen3 Maxの制約が17.2点下落、Gemini 2.5 Proが15.5点下落したのは、まさにこのトレンドの集中的な表れである。
注目すべきは、Claude Opus 4.7とSonnet 4.6が並んで1位となったものの、制約分は同様に59.5点でwarnタグ付きだった点である。これは現在のトップモデルが「思い切って言う」と「正しく言う」の両立において、依然として最適化を同時実現するのが困難であることを示している。
今後の見通し
制約次元が継続的にボトルネックとなれば、2026年下半期の主流モデルの実際の適用シナリオは大幅に圧縮されるだろう。企業ユーザーがより必要とするのは「引用可能、監査可能」な出力であり、単にコードが実行できるデモではない。次の段階の競争では、勝敗は完全に素材制約の修復速度にかかってくるだろう。
データ出典:YZ Index | Run #134 | 原始データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接