Qwen3 Max、メインランキングで19.2点急落――コード実行スコアが1日で31.2点下落

YZ Index 2026年6月における11モデルの実測において、Qwen3 Maxのメインランキングスコアは前日の100点から本日の80.82点へと下落し、降幅は19.2点となった。

コア次元の分解

コード実行次元は100.00点から68.80点へと31.2点下落し、メインランキング下落の主な要因となった。材料制約次元は100.00点から95.50点へと、降幅はわずか4.5点にとどまった。メインランキングはコード実行と材料制約の加重合算で構成されているため、実行端の急激な下落が全体スコアを直接押し下げた。

エンジニアリング判断は66.70点から44.50点へ、タスク表現は97.50点から62.50点へとそれぞれ低下し、2項目のサイドランキング(AI補助評価)でも明確な後退が見られたが、いずれもメインランキングの順位には算入されない。

変動要因の分析

Smokeテストは1日10問のみ・次元あたり2問であり、サンプル数が少ないため、問題の抽選によるばらつき自体が大きなスコア変動を生じさせ得る。コード実行次元の1日の損失が31.2点と材料制約の4.5点を大きく上回っていることから、今回のテストではQwen3 Maxの現在の推論経路にとってより挑戦的な問題が抽出された可能性がある。

連続複数日にわたって同種の下落幅が生じた場合はモデルの実質的な退化を検討する必要があるが、今回は単日データのみであり、能力の衰退と直接断定することはできない。

継続的な注視が必要か

コード実行次元の下落幅はすでに31.2点に達しており、材料制約の降幅を大きく超えているため、今後3〜5日間のSmokeテストにおいて同次元のスコアを重点的に追跡することを推奨する。実行スコアが継続的に80点を下回る場合、特定のコードシナリオにおけるモデルの安定性の問題を反映している可能性がある。

誠実性評価はpassを維持しており、モデルが回答を拒否したり明らかな逸脱行動を示したりといった事象は発生していない。

現時点のデータが支持する結論は「単日における実行端の異常な変動」にとどまり、長期ランキングの引き下げが必要な段階にはまだ達していない。

1回のSmokeテストにおける31.2点の実行下落は、モデル退化のシグナルというよりも、抽選の当たり外れに近い。

データソース:Winzheng (YZ Index) | Run #190 | 元データを見る