YZ Index の Smoke 評価において、Qwen3 Max の材料制約スコアは前日の100.00点から本日の71.10点へと下落し、下落幅は28.9点に達した。
1日のスコア比較
コード実行は50.00点から75.00点へ上昇、エンジニアリング判断は69.50点から73.60点へ上昇、タスク表現は96.30点から63.80点へ下落、メインランキングスコアは72.50点から73.25点へ上昇、誠実性評価は「pass」を維持した。
変動要因の分析
Smoke 評価は1日あたり10問のみで、各ディメンションにつき2問であるため、1日のスコアは問題の抽選による影響を大きく受ける。材料制約とタスク表現が同時に大幅に下落した一方で、コード実行は対称的に上昇しており、メインランキング全体のスコアは依然として小幅なプラス成長を示した。これは、各能力ディメンションにおけるパフォーマンスの差異が、モデル能力そのものの系統的な劣化ではなく、当日の問題の組み合わせに起因する可能性がより高いことを示している。
モデルが真に劣化している場合、通常はメインランキングスコアの同時下落や複数ディメンションにわたる継続的な低迷を伴う。本日のデータでは、メインランキングスコアはむしろ0.8点上昇し、エンジニアリング判断スコアも小幅に向上しており、これは真の能力劣化の特徴とは一致しない。
継続的なモニタリングの必要性について
現在の証拠は、問題抽選によるばらつきの可能性がより高いことを示している。材料制約の1日あたり28.9点の下落は、デイリー速報フレームワークにおいて正常な範囲内であり、モデル能力劣化の明確なシグナルにはまだ至っていない。材料制約スコアの標準偏差を3〜5営業日連続で観察し、変動幅が20点を継続的に超える場合に、改めて追加検証を検討することを推奨する。
YZ Index の安定性ディメンションが測定するのはスコアの標準偏差であり、1回あたりの正答率ではない。Qwen3 Max の本日のスコア変化は、抽選のランダム性が一度現れたものである可能性がより高い。
データソース:YZ Index | Run #184 | 生データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接