Qwen3 Max、メインランキングで12点急落し74点に——誠実性failが全体スコアを引き下げ

2026年6月23日のSmoke軽量評価において、Qwen3 Maxはメインランキング74点、実行100点、材料制約95.7点を記録したが、誠実性評価が直接failとなり、前日比でメインランキングが12点下落し、11モデル中唯一80点を下回るモデルとなった。

満点モデルと制約面の弱点が並存

Claude Opus 4.7、Gemini 3.1 Pro、Grok 4の3モデルはいずれもメインランキング100点で、実行・材料制約ともに100点、誠実性はpassとなり、現時点で唯一の弱点なしの組み合わせを形成している。DeepSeek V4 Proがこれに続き、メインランキング99.37点、実行100点、制約98.6点で、同様にpassとなった。

文心一言4.5はメインランキング98.74点、実行100点、制約97.2点で誠実性はwarn。豆包 Proはメインランキング98.07点、実行100点、制約95.7点でpass。GPT-o3はメインランキング96.81点、実行100点、制約92.9点でpass。Gemini 2.5 ProとGPT-5.5はメインランキング96.18点で並列、実行はいずれも100点、制約はいずれも91.5点でpass。Claude Sonnet 4.6はメインランキング94.87点、実行100点、制約88.6点でpassとなった。

実行次元は一致しており、制約がランキングを決定する

11モデルすべてで実行次元が100点満点を記録しており、計算式における重み0.55の部分には差異が生じなくなった。材料制約の重み0.45が唯一の順位決定要素となっている。制約スコアは100点から88.6点まで分布しているが、Qwen3 Maxは制約95.7点にもかかわらずfailにより大幅に引き下げられており、誠実性評価がメインランキングに直接的なペナルティをもたらすことが示された。

前日との比較では、文心一言4.5のメインランキングが50.8点上昇し、制約が低い水準から51.7点回復。Gemini 2.5 Proはメインランキングが24.9点上昇したが、制約の変動は-5.9点。Qwen3 Maxは制約が26.9点上昇したにもかかわらずメインランキングは12点下落しており、制約の改善が誠実性failによる減点を補うには不十分であることが示された。

異常シグナルが誠実性の閾値を指し示す

Qwen3 Maxは唯一誠実性failのモデルであり、メインランキング74点は制約95.7点に対応する理論値を大きく下回っており、failが追加の減点メカニズムを直接発動させたことを示している。Claude Sonnet 4.6は制約88.6点でpassを維持し、メインランキング94.87点を確保しており、pass基準がランキング保護に機能していることが示された。

実行が全て満点、制約にばらつき、誠実性による一票否決——これが今回のSmoke評価における最も明確なスコア構造の特徴である。

実行が差異を生まなくなった今、材料制約と誠実性評価が第一グループに残れるかどうかを共同で決定する。

データ出典:YZ Index | Run #194 | 元データを見る