本日のSmoke軽量評価では、Claude Opus 4.7とGPT-5.5が92.53点でメインランキング首位タイとなり、コード実行で共に100点、素材制約も同じく83.4点を記録しました。この結果は素材制約を一気にスポットライトの中心へと押し上げました。
素材制約が第二梯隊との差を広げる
第3位のClaude Sonnet 4.6はわずか0.4点差で、主因は素材制約82.5点。豆包ProとGemini 2.5 Proは91.68点で第4位タイとなり、制約スコアは81.5点、差は0.4点から1.9点に拡大しました。「0.55×コード実行+0.45×素材制約」の計算式では、制約が1点向上するごとに総合得点に0.45点寄与し、実行ディメンションの限界効果を大きく上回ります。
実行満点はもはや入門基準
上位9モデルのコード実行は全て100点ですが、Grok 4と文心一言は50点止まりです。後者は素材制約70.5点でwarnが付き、原始素材の指示に従う際に明らかな逸脱があったことを示しています。実行能力が収束した今、モデルが真に競うのは「与えられた素材から逸脱しない」能力です。
本日は異常シグナルがなく、全モデルが昨日のスコアと一致しており、安定性ディメンションに大きな変動は見られませんでした。Grok 4の63.41点は主に実行の崩壊によるもので、制約問題ではありません。一方、文心一言は両ディメンションとも低位にあり、warnタグがその一貫性リスクをさらに裏付けています。
業界的意義
2026年中盤、トップモデルはコード実行を天井に近いレベルまで仕上げており、次の段階の競争は必然的に素材制約へと移行します。ClaudeとGPT-5.5はこのディメンションで現在0.9点のわずかなリードを形成し、メインランキングで首位タイという劇的な結果を生み出すには十分でした。今後、制約スコアの分化がさらに進めば、ランキングは「並列」から「断層」へと移行するでしょう。
素材制約は新たな堀(モート)となりつつあります。
データソース:YZ Index | Run #153 | 原始データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接