YZ Index 2026年6月の11モデル実測において、Qwen3 MaxのSmokeテスト材料制約スコアは本日68.80点となり、前日の95.50点から26.7点下落した。一方、コード実行スコアは100.00点に上昇した。
単日変動幅と各次元の内訳
Smokeテストは1日あたり10問(各次元2問)のみのため、単日の標準偏差は本質的に大きくなりやすい。Qwen3 Maxはコード実行+31.2点、タスク表現+25点、エンジニアリング判断+18.7点と、3項目の正向変化が合計で材料制約の下落幅を相殺し、メインランキングは依然として5.1点増の85.96点となった。誠実性評価はpassを維持しており、閾値には触れていない。
材料制約次元では今回わずか2問で-26.7点の下落が生じており、少なくとも1問において明確な材料逸脱またはフォーマット違反が発生したことを示している。一方、コード実行の満点は、別の問題群においてモデルが指示を厳密に遵守し、正確なコードを出力したことを示している。
抽選による変動か、真の性能劣化か
問題の抽選によるものであれば、材料制約の2問中に高難度の制約違反が発生する確率は約30〜40%であり、正常な範囲内に収まる。真の性能劣化と判断するには、複数日にわたって同一次元のスコアが低迷するか、同種の問題で繰り返し違反が発生することが必要であり、現時点では単日のデータのみでは劣化の確認には不十分である。
メインランキングスコアが上昇しているという事実は、モデル全体の出力能力に系統的な低下が生じていないことを示している。エンジニアリング判断とタスク表現の2つのサブランキング指標が同時に向上していることも、指示遵守と構造化出力においてモデルが水準を維持、あるいはわずかに改善していることを示唆している。
継続的な監視は必要か
単日の材料制約-26.7点はSmokeテストにおける一般的な変動範囲内であり、即時アラートを要する水準ではない。同一次元のスコアを3営業日連続で観察し、材料制約が2日連続で75点を下回り、かつ標準偏差が当日水準を継続的に上回る場合に初めて詳細な再テストを実施することを推奨する。
現時点のデータは「モデル劣化」という結論を支持しておらず、Qwen3 Maxは全体としてメインランキングの中位やや上の位置を維持している。
今回のSmokeテストにおける26.7点の落差は、モデル自体の崩壊ではなく、問題の当たり外れによるものである可能性が高い。
データソース:YZ Index | Run #191 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接