YZ Index 2026年6月24日のSmoke軽量評価において、文心一言4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から直接50に低下した。
実行と制約の明確な断層
本日のメインランキング上位3位のDeepSeek V4 Pro、Gemini 3.1 Pro、Grok 4はいずれもコード実行100点・素材制約100点を獲得した。4位から6位の豆包Pro、Gemini 2.5 Pro、GPT-5.5は実行100点・制約94.5点を維持し、メインランキングスコアはいずれも97.53点となった。
8位のClaude Opus 4.7と9位のQwen3 Maxはメインランキングスコアがともに72.5点で、実行はともに50点、制約はともに100点となった。10位のClaude Sonnet 4.6は実行50点・制約95.5点で、メインランキングスコアは70.48点だった。この実行50点と制約がほぼ満点という組み合わせは、本日のランキング下位段の典型的な構造を形成している。
4モデルの実行スコアが一斉に半減
前日との比較では、文心一言4.5の実行が50点低下、Claude Opus 4.7の実行が50点低下、Claude Sonnet 4.6の実行が50点低下、Qwen3 Maxの実行が50点低下した。4つのモデルの実行ディメンションが同時に50点規模の崖落ちを起こし、メインランキングスコアはそれぞれ34.1点、27.5点、24.4点、1.5点の下落をもたらした。
素材制約ディメンションの変化は比較的穏やかだった。Claude Sonnet 4.6の制約は逆に6.9点上昇し95.5点となり、文心一言4.5の制約は14.7点低下し82.5点となってwarn評価を受けた。その他のモデルの制約変化は10点を超えなかった。
スコア構造が能力の境界を示す
上位7モデルの実行ディメンションはいずれも100点を維持し、制約ディメンションは94〜100点の範囲で変動しており、これらのモデルがコード実行タスクにおいて安定した出力を維持していることを示している。8位から11位のモデルは実行ディメンションがいずれも50点に留まっているものの、制約ディメンションは82.5〜100点に達しており、制約タスクがこれらのモデルに与える負荷は実行タスクよりも明らかに小さいことがわかる。
core_overall計算式においてコード実行の重みは0.55であり、素材制約の0.45を上回る。そのため実行ディメンションが100から50に低下した場合のメインランキング総合スコアへの直接的な影響は、制約ディメンションの同等の変化よりも大きく、これは本日4モデルの下落幅と完全に一致している。
実行50点・制約100点の組み合わせは、本日のランキング下位段の固定パターンとなっている。
文心一言4.5はwarnシグナルと最大の下落幅が同時に発生しており、実行と制約の両ディメンションで顕著な変動が生じていることを示している。実行が急落した他の3モデルはpass評価を維持しており、誠実性ディメンションが新たな閾値に触れていないことを示している。
本日のデータは1回限りの10問クイックテスト結果のみを反映しており、実行ディメンションの大幅な変動は問題の難易度分布またはモデルの当該出力の安定性の差異に起因する可能性があり、継続的な傾向を形成しているかどうかは今後複数日にわたるデータによる検証が必要である。
データ出典:YZ Index | Run #195 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接