Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点

YZ Index 2026年6月における11モデルの実測において、Qwen3 Max のコード実行次元のスコアが前日の100.00点から本日の50.00点へと直接急落し、1日の降下幅は50点に達した。

メインランキング微減の実態

メインランキングのスコアは74.00点から72.50点へとわずか1.5点の低下にとどまった。これは、メインランキングがコード実行と材料制約の2次元の平均のみで算出されるためである。材料制約が95.70点から100.00点へ上昇したことで、コード実行の大幅な落ち込みが相殺された。

エンジニアリング判断は48.40点から63.20点へ、タスク表現は68.80点から96.30点へそれぞれ上昇し、誠実性評価はfailからpassへと転じた。これらサブランキング指標の改善はメインランキングには反映されていない。

50点の変動は抽選の影響か、それとも性能低下か

Smokeテストは1日あたりわずか10問で、各次元につき2問のみである。コード実行次元の当日問題が複雑な多段階推論やエッジケースに集中した場合、1日で50点級の変動が生じることは正常な範囲内である。前日の100.00点はその日の問題をすべて正解したことを示し、本日の50.00点は半分しか完成できなかった可能性を示す。

一方、材料制約は当日に満点を記録しており、モデルの制約遵守能力に系統的な低下がないことを示している。2つのコア次元が逆方向に変動していることは、モデル全体の能力低下ではなく、問題の抽選によるランダムな変動に合致する。

継続的な注視が必要か

Smokeクイックテストにおける1日50点級の変動はこれまでにも複数回発生している。今後3日間にわたってコード実行スコアが継続的に70点を下回る場合は、モデルの実際の能力変化を検討する必要がある。現時点では1日分のデータのみで性能低下を確認することはできない。

誠実性評価がfailからpassへ転じたことは、モデルが今回のクイックテストで明らかな幻覚や逸脱した回答を示さなかったことを意味しており、コード実行スコアの急落と対照をなしている。これは変動の主因がモデル自体ではなく問題の難易度にあるという見方をさらに裏付けるものである。

Smokeクイックテストにおける1日50点級の変動は、モデルの性能低下よりも抽選による分散を反映していることが多い。

データソース:Winzheng (YZ Index) | Run #195 | 元データを見る