Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ素材制約が最大の分水嶺に

2026年6月8日 565 約3分 Winzheng Index

Claude Opus 4.7 GPT-5.5 材料约束 Smoke轻量评测代码执行满分

Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ素材制約が最大の分水嶺に

本日のSmoke軽量評価では、Claude Opus 4.7とGPT-5.5が92.53点でメインランキング首位タイとなり、コード実行で共に100点、素材制約も同じく83.4点を記録しました。この結果は素材制約を一気にスポットライトの中心へと押し上げました。

素材制約が第二梯隊との差を広げる

第3位のClaude Sonnet 4.6はわずか0.4点差で、主因は素材制約82.5点。Doubao ProとGemini 2.5 Proは91.68点で第4位タイとなり、制約スコアは81.5点、差は0.4点から1.9点に拡大しました。「0.55×コード実行+0.45×素材制約」の計算式では、制約が1点向上するごとに総合得点に0.45点寄与し、実行ディメンションの限界効果を大きく上回ります。

実行満点はもはや入門基準

上位9モデルのコード実行は全て100点ですが、Grok 4とERNIE Botは50点止まりです。後者は素材制約70.5点でwarnが付き、原始素材の指示に従う際に明らかな逸脱があったことを示しています。実行能力が収束した今、モデルが真に競うのは「与えられた素材から逸脱しない」能力です。

本日は異常シグナルがなく、全モデルが昨日のスコアと一致しており、安定性ディメンションに大きな変動は見られませんでした。Grok 4の63.41点は主に実行の崩壊によるもので、制約問題ではありません。一方、ERNIE Botは両ディメンションとも低位にあり、warnタグがその一貫性リスクをさらに裏付けています。

業界的意義

2026年中盤、トップモデルはコード実行を天井に近いレベルまで仕上げており、次の段階の競争は必然的に素材制約へと移行します。ClaudeとGPT-5.5はこのディメンションで現在0.9点のわずかなリードを形成し、メインランキングで首位タイという劇的な結果を生み出すには十分でした。今後、制約スコアの分化がさらに進めば、ランキングは「並列」から「断層」へと移行するでしょう。

素材制約は新たな堀（モート）となりつつあります。

データソース：YZ Index | Run #153 | 原始データを見る

Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ 素材制約が最大の分水嶺に

素材制約が第二梯隊との差を広げる

実行満点はもはや入門基準

業界的意義

関連記事

Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ素材制約が最大の分水嶺に