三大モデルが Smoke ランキング首位に並列、実行は満点も制約に警告

Smoke の本日のクイックテスト結果によると、Claude Opus 4.7、Claude Sonnet 4.6、GPT-5.5 の三モデルがメインランキングで同じ 87.76 点を獲得し、並列首位となった。主な理由は、三者ともコード実行次元で 100 点満点を獲得した一方、材料制約次元はいずれも 72.8 点にとどまり、warn シグナルを発したことにある。

実行満点は標準装備に、制約が唯一の分水嶺

上位 8 モデルのコード実行はすべて 100 点となっており、現在の主流モデルが簡単なコードタスクにおいて飽和状態に達していることを示している。真に差を生むのは材料制約の一項目のみである。Claude と GPT-5.5 の 72.8 点は、豆包 Pro の 70.8 点や Gemini 2.5 Pro の 70 点をリードしており、差は小さいものの、上位 3 位の帰属を直接決定づけた。

材料制約次元は、主にモデルが与えられた材料への忠実度と境界制御を評価する。72.8 点に対応する warn 評価は、これらのモデルが一部の問題で軽微な過剰推論や情報の漏出を示したことを意味する。これに対し、DeepSeek V4 Pro と Grok 4 は制約次元で fail を発し、メインランキング 9-10 位に転落した。

文心一言は実行が崩壊、明確な断層を形成

文心一言 4.5 は実行がわずか 50 点、メインランキング全体で 56.3 点と、最下位が明確である。同モデルはコード実行において主流モデルと同じ土俵で競うことができず、エンジニアリングタスクにおける長年の弱点を露呈した。

本日は顕著な変動を示したモデルはなく、すべてのモデルが昨日と同じスコアを維持しており、安定性次元には新たなシグナルはない。業界動向としては、Claude シリーズと GPT-5.5 が同時に制約次元で同じスコアに留まっており、現在の訓練パラダイムが「材料境界制御」の向上においてボトルネック期に入ったことを示唆している。

実行 100 点は合格ラインに過ぎず、制約 warn こそが真の天井である。

短期的には、モデルの反復の焦点は引き続き材料制約の精緻化に集中するだろう。さもなければ、どれほど高い実行スコアでもメインランキング全体を押し上げることはできない。


データソース:YZ Index | Run #145 | 元データを見る