Smoke 評価:10モデルがコード実行で満点、マテリアル制約が順位を決定づける

本日のSmoke軽量評価では、11モデル中、コード実行の項目で珍しい「満点ラッシュ」が発生した。上位9モデルの実行スコアがすべて100点に達し、順位は完全にマテリアル制約(grounding)によって決定された。Claude Sonnet 4.6が最終的に97.98点で首位を獲得し、制約スコアは95.5点だった。

実行満点が標準装備、制約が勝敗を決める

計算式 core_overall = 0.55×実行 + 0.45×制約 により、実行スコア100のモデルは最低でも55点のベーススコアを獲得する。残りの45点はほぼ制約パフォーマンスにかかっている。豆包 Proは制約スコア94.3点で、97.44点で2位に続いた。Grok 4は制約スコア93.5点で3位となった。Gemini 2.5 ProとClaude Opus 4.7も91.8点以上の制約水準を維持している。

一方、下位を見ると、文心一言 4.5は実行スコアがわずか50点で、総合スコアを58.69点まで引き下げた。Qwen3 Maxは実行満点ながら、制約スコア73.5点で誠実性評価がfailとなり、第10位に位置している。

大きな変動なし、業界は安定期に

昨日との比較では、全モデルのスコア変化は0.3点以内に収まり、異常なシグナルはなかった。これは現在の主流モデルが10問の高速テストシナリオにおいて、相対的に固定された能力境界を形成していることを示している。コード実行能力は過去半年の反復を経て、ほとんどのモデルにとって「合格ライン」の能力となったが、マテリアル制約には依然として明確な階層が存在している。

注目すべきは、GPT-5.5とGPT-o3の制約スコアがそれぞれ82.3と65で、17.3点の差があり、OpenAI内部の異なるバージョンでgrounding方向の反復余地がまだ明確に存在していることを示している点だ。

マテリアル制約が次の段階の中核戦場に

本日のデータを見ると、制約スコアが1点上昇するごとに、総合ランキングへの影響は約0.45点となる。Claude Sonnet 4.6は95.5の高い制約スコアにより、6位のGemini 3.1 Proに5.4点近くの差をつけている。今後1週間で新モデルの発表がなければ、順位は現状のまま維持される可能性が高い。

コード実行はすでに標準装備となり、マテリアル制約こそが真の分水嶺である。

データソース:YZ Index | Run #158 | 元データを表示