3モデルが88.75点で同率1位、Claude双璧が12点暴落、Smokeランキング激震

本日のSmoke軽量評価結果によると、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Maxの3モデルが88.75点でメインランキング首位を分け合い、コード実行はいずれも満点100点、材料制約も同じく75点となった。この状況はこれまでのClaude一極支配の構図を打ち破り、Openモデルがより速いペースでクローズドソースのトップ水準に迫っていることを示している。

Claude双璧はなぜ突然崩壊したのか

最も注目すべき異常はClaudeシリーズの集団的下落である。Claude Sonnet 4.6のメインランキングは昨日の98.35点から86.05点まで急落し、12.3点の暴落となった。その中で材料制約は96.3点から69点へと半減した。Claude Opus 4.7も昨日の97.75点から88.75点に後退し、メインランキングで9点下落した。両モデルが同一の10問クイックテストで同時に材料制約で失点しており、これはモデル能力の恒久的な劣化ではなく、内部システムプロンプトや安全ポリシーの一時的調整を示唆する可能性が極めて高い。

DeepSeekとGrokの逆襲のロジック

一方、DeepSeek V4 Proはメインランキングが54.65点から88.75点へと一気に上昇し、34.1点の上昇幅となった。材料制約は14.7点から75点へ向上し、誠実性評価もwarnからpassへ転じた。これは昨日の低スコアが単発の実行異常に起因していた可能性があり、本日のパフォーマンスがより真の上限に近いことを示している。Grok 4も同様に48.45点から86.05点へと急上昇し、38.3点の上昇幅を記録、xAIが材料制約モジュールにおいて急速に反復改善を進めた成果が現れている。

このような激しい変動は、Smoke評価の敏感性を裏付けている。10問クイックテストは単発の分散を増幅させるが、同時に現在のモデル反復が「週単位の更新」段階に入っていることを忠実に反映しており、アライメントや安全パッチが一度施されるたびにスコアが大きく揺れ動く可能性がある。

業界洞察:材料制約が新たな戦場に

本日ランクインしたすべてのモデルでコード実行が100点に達しており、核心となる_overallスコアの差異はほぼ完全に材料制約によって決まっている。これは2026年にはコード能力がプラトー段階に入り、次の段階の競争の焦点は「材料制約」——すなわち制限された指示下におけるモデルのコンプライアンス性と一貫性——へと移っていることを示している。GPT-5.5とGPT-o3は依然として84.03点に留まり、材料制約はわずか64.5点で、第一グループに10点以上の差をつけられている。OpenAIのこの次元における遅れはすでに2週間続いている。

材料制約が順位を決める鍵となる変数となった時、安全ポリシーを通じて「点数をかすめ取ろう」とするモデルは、クイックテストでその代償を払うことになるだろう。

本日のランキングの激震は、2026年下半期のAIモデル競争が「誰が最も速く走るか」から「誰が制約下でも最強を維持できるか」へと移行することを予告している。Claudeの短期的な後退は、長期的安定性のために必要な校正である可能性が高く、DeepSeekとGrokの爆発的躍進は、オープンソース/セミオープンソース陣営がクローズドソース巨頭と真に同じ舞台で競い合う実力を備えたことを意味している。


データ出典:YZ Index | Run #119 | 元データを見る