Qwen3 Max、メインランキングで12.9ポイント急落――コード実行は1日で26.8ポイント下落

YZ Index 2026年6月のSmokeテストにおいて、Qwen3 Maxのメインランキングスコアは84.92点から72.02点へ下落し、降幅は12.9点となった。そのうちコード実行ディメンションは96.30点から直接69.50点へ下落した。

単日データの内訳

今回のSmokeテストは全10問で、コード実行ディメンションは2問。Qwen3 Maxのコード実行スコアは26.8点下落した一方、資料制約は71.00点から75.10点へ上昇、エンジニアリング判断は55.60点から66.70点へ上昇、タスク表現は65.00点から75.00点へ上昇した。メインランキングはコード実行と資料制約の加重のみで構成されているため、コード実行の急激な下落が全体順位を直接引き下げた。

変動か劣化か

Smokeテストは毎日異なる問題を抽出するため、単日10問という小サンプルでは、ランダムな問題難易度の差異によってスコアが変動する可能性がある。Qwen3 Maxのコード実行における単日下落幅26.8点は、資料制約の上昇幅4.1点を大きく上回っており、今回の下落がコード実行ディメンションに集中していることを示している。現時点では2日分のデータしかなく、問題抽選による変動とモデルの実際の能力変化を区別することはできない。系統的な劣化が発生しているかどうかを判断するには、同種の問題による複数日連続テストが必要である。

注目すべきか

小サンプルの速報テストにおける単日の異常値は通常の範囲内ではあるが、コード実行ディメンションの下落幅がすでに26.8点に達していることから、Qwen3 Maxを翌日のSmokeテスト再テスト対象リストに加えることを推奨する。コード実行スコアが2日連続で75点を下回った場合は、完全なロングランキングによる再テストを実施する。エンジニアリング判断とタスク表現のサイドランキングスコアはそれぞれ11.1点と10点上昇しており、非コードタスクにおけるモデルのパフォーマンスは同時に下落していないことを示している。

現時点では単日データのみであり、Qwen3 Maxにモデル劣化が発生したと確認することはできない。問題抽選による変動が依然として最も可能性の高い説明である。

12.9点のメインランキング下落は、26.8点のコード実行における単問崩壊に起因している。

データ出典:YZ Index | Run #213 | 元データを見る