Claude Sonnet 4.6が97.53点でトップ、材料制約で文心一言と40点差

Smoke 本日のクイックテストの最も直接的な結論は:コード実行はすでに合格ラインとなり、材料制約こそが真の分水嶺だということだ。

上位3モデルの差はわずか1.58点、Claudeが2連覇

Claude Sonnet 4.6が97.53点で首位、Opus 4.7が96.54点でこれに続き、Grok 4が95.95点で3位となった。3モデルともコード実行は100点満点で、真に差をつけたのは材料制約:Sonnet 94.5、Opus 92.3、Grok 91。0.45のウェイトにより、この3項目のスコアがメインランキングの順位を直接決定づけた。

実行満点が常態化、文心一言が唯一の例外

11モデル中、10モデルがコード実行で100点を獲得。唯一不合格だったのは文心一言 4.5で、わずか50点。これによりメインランキングのスコアは53.83点まで圧縮され、2位より約44点低い結果となった。実行次元はもはや多くのモデルの弱点ではなく、むしろ材料制約が決定的な変数となっている。

材料制約のスコア差は33点超、国産モデルが軒並み苦戦

材料制約は最高94.5、最低58.5、レンジは36点。GPT-5.5、豆包 Pro、Gemini系列はいずれも75~79.5の範囲で推移し、Qwen3 Maxはわずか61点。制約能力が不足するモデルは、原文の厳密な引用やハルシネーション回避が求められる問題で継続的に失点することになる。これが本日のランキング後半に集中している主な理由でもある。

本日のデータは再度ある傾向を裏付けた:実行能力が概ね基準を満たした後、モデル間の真の差は入力材料への忠実度に集中して現れるということだ。Claude Sonnet 4.6のこの次元でのリードは、すでに2日連続で首位の優位性に転化している。

材料制約が10点上がるごとにメインランキングで4.5点を稼げる。文心一言は50点の実行と58.5点の制約で最も高くつくレッスンを差し出した。

データソース:YZ Index(赢政指数) | Run #156 | 元データを表示