Claude Opus 4.7がメインランキング満点100点で首位獲得、豆包 Proは13.8点急落で実行面の弱点が露呈

2026年6月29日のYZ Index Smoke ライト評価において、Claude Opus 4.7はメインランキング100点・実行100点・制約100点 [pass] で第1位を獲得し、実行・制約の両項目が満点を達成した。

満点モデルの構造的特徴

Claude Opus 4.7の0.55×100 + 0.45×100の組み合わせにより、スコアは直接100点に到達した。Grok 4の実行スコアも同じく100点だが、制約スコアは96.7点、メインランキングは98.52点であり、差はマテリアル制約の項目のみに生じている。DeepSeek V4 ProとClaude Sonnet 4.6はいずれも実行スコアが100点で、制約スコアはそれぞれ95.4点と95.2点、メインランキングのスコア差は0.1点未満となっている。

前日の実行スコアの急変と本日の構造

Claude Opus 4.7は前日の実行スコアが50点にとどまっていたが、本日は直接100点へと上昇し、メインランキングで28.5点の上昇を記録した。Claude Sonnet 4.6の実行スコアも同様に50点から100点へと上昇し、メインランキングで27.3点上昇した。両モデルの制約スコアには同程度の変動は見られず、今回の向上がコード実行の次元に起因するものであることが示されている。

豆包 Proの異常な下落分析

豆包 Proのメインランキングスコアは84.77点で、実行75点・制約96.7点となり、前日比13.8点の下落となった。実行スコアは上位5モデルの95点超の水準を大きく下回る一方、制約スコアはGrok 4の96.7点に近い水準を維持している。実行の重み係数が0.55と高いため、全体のメインランキングスコアが明確に引き下げられている。

その他モデルの実行・制約スコアの組み合わせ

Gemini 3.1 Proは実行95点・制約95点でメインランキング95点と、バランスのとれた構造を示している。Qwen3 Maxは実行87.7点・制約95.2点でメインランキング91.08点となり、制約が実行を上回っている。文心一言 4.5は実行89.6点・制約86.5点でメインランキング88.21点と、両項目ともに中位に位置している。Gemini 2.5 Proは実行75点・制約100点でメインランキング86.25点となり、制約は満点ながら実行が足を引っ張る構造となっている。

Qwen3 Maxの誠実性評価はwarnからpassに転じ、メインランキングで21.1点上昇、実行スコアは前日比37.7点向上した。文心一言 4.5のメインランキングは26.7点上昇し、実行スコアは54点向上、制約スコアは6.7点低下した。

Claude Opus 4.7が本日満点100点を獲得する一方、豆包 Proの実行スコア75点という構造的な弱点は、依然として差を広げ続けている。

データ出典:YZ Index | Run #203 | 元データを見る