Qwen3 Maxメインランキングが10.9点暴落、コード実行は単日で25点の半減

Qwen3 Maxは本日のSmokeクイック評価でメインランキングが直接10.9点下落し、その主因はコード実行次元が満点100から75へ暴落したことです。この単日の変動幅は正常な抽選変動範囲を超えており、深刻に受け止める必要があります。

データ分解:コード実行はなぜ半減したのか

Smoke評価では毎日コード実行の問題はわずか2問です。昨日の満点はモデルが2問とも正確かつ効率的な実行経路を提示したことを意味し、本日の75点は通常そのうち1問で明らかな誤りまたは効率問題が発生したことに対応します。素材制約次元はむしろ75から81.3に上昇しており、モデルが制約遵守において体系的な退化を起こしているわけではなく、問題はコード生成と実行能力に集中していることを示しています。

問題の変動か、真の退化か

毎日10問のクイック評価における確率的揺らぎは確かに存在しますが、コード実行次元で連続2日にわたり25点規模の落差が発生したことは、もはや単純に問題の難易度に帰すことはできません。同規模の単日変動はQwenシリーズの過去評価では稀でした。さらに注目すべきは、誠実性評価がpassから直接warnへ転じたことで、これは通常モデルの回答に検証可能な論理的または事実的問題が発生したことを意味します。

エンジニアリング判断(サイドランキング、AI補助評価)は30から50に上昇し、タスク表現は30のまま不変で、2つのサイドランキング指標は同時に弱化していないため、焦点はさらにコード実行というコア能力に絞り込まれます。

最近の業界動向と考えられる誘因

アリババは最近Qwen3シリーズに対して複数ラウンドのアライメントおよび安全強化トレーニングを実施しました。一部の開発者のフィードバックでは、モデルは複雑な指示に従う際により保守的になっており、コード生成の長さやツール呼び出し回数が減少しているとのことです。この保守化はSmoke評価において実行効率や境界条件の処理ミスを直接引き起こした可能性があります。

  • トレーニング後、モデルは「安全だが十分に積極的でない」コード解を出力する傾向が強まる
  • Smoke評価の一部問題は積極的な最適化やエッジケース処理を要求するため、弱点が露呈しやすい
  • 誠実性評価のwarnは幻覚や論理飛躍を伴う可能性を示唆し、減点をさらに拡大させる

注目すべきか

注目すべきです。コード実行はメインランキングの監査可能な2大次元の1つであり、単日で25点下落し誠実性評価の降格を伴うことは、すでに明確なシグナルを構成しています。Smokeデータを3〜5日連続して観察することを推奨し、コード実行次元が90以上に回復しない場合は、モデルの真の能力に段階的退化が発生していると考慮すべきです。

安定性次元は現在具体的な数値が公開されていませんが、本日のパフォーマンスから見ると、モデルの同類問題における出力一貫性が低下している可能性があり、これはトレーニング後のアライメント強度が高すぎることによる「過度な保守化」と高度に一致します。

Qwen3 Maxが来週中にコード実行水準を回復できなければ、開発者コミュニティの「最強オープンソースコードモデル」という位置付けに対する信頼はさらに揺らぐでしょう。


データソース:YZ Index | Run #121 | 元データを表示