Claude Opus 4.7が97.12点でトップ、コード実行満点も材料制約93.6点が全体を押し下げ

YZ Index 2026年6月27日のSmoke軽量評価において、Claude Opus 4.7は主榜97.12点で首位となり、コード実行100点・材料制約93.6点を記録した。

満点の実行と制約面の課題が共存

Claude Opus 4.7のコード実行は100点、材料制約は93.6点で、0.55×実行 + 0.45×制約の計算式により主榜スコアは97.12点となった。Claude Sonnet 4.6も実行は同じく100点、制約は92.1点で、主榜96.45点。両モデルとも実行次元はすでに満点に達しているが、制約次元ではそれぞれ93.6点と92.1点にとどまり、全体スコアを直接押し下げている。

中位グループにおける実行と制約の別パターン

豆包 Pro、Gemini 3.1 Pro、GPT-5.5の3モデルは主榜83.37点で並列となり、実行はいずれも75点、制約はいずれも93.6点。この構造は、材料制約においてClaude Opus 4.7と同水準に達しているものの、コード実行で25点差をつけられており、それが主榜での13.75点差につながっていることを示している。

DeepSeek V4 Proは主榜82.16点で実行75点・制約90.9点。GPT-o3は主榜81.84点で実行75点・制約90.2点。両モデルとも制約が93.6点区間を下回っており、上位5モデルとの差がさらに広がっている。

実行次元の低下による順位変動

前日比で、文心一言 4.5の主榜は23.8点下落し、実行は前日比37.5点減、制約は7点減となった。Gemini 2.5 Proの主榜は22.6点下落し、実行も同様に37.5点減。Qwen3 Maxの実行は41.2点減、主榜は22.6点減。DeepSeek V4 Proの実行は25点減、主榜は15.1点減。Grok 4の実行は27.5点減、主榜は15.1点減。これらモデルの実行スコアが一斉に低下したことが、本日の順位後退の主な要因である。

制約次元は比較的安定

本日の全モデルの材料制約は誠実性評価をすべて通過した。Qwen3 Maxの制約は95.9点で唯一95点超えを達成したが、実行はわずか58.8点にとどまり、主榜は75.5点。Gemini 2.5 Proの制約は91.4点、文心一言 4.5の制約は90.2点で、いずれも中下位区間に位置する。

Smoke評価は当日10問のクイックテストのみを対象としており、実行と制約の強弱の組み合わせにより、各モデルのスコア構造が明確に区別された。Claudeシリーズは実行面で顕著な優位性を持ち、その他のモデルは実行次元での突破口を模索する必要がある。


データソース:Winzheng (YZ Index) | Run #200 | 元データを見る