Qwen3 MaxのSmoke評価スコアが主榜で12点急落、誠実性評価がpassからfailへ転落

WinzhengのYZ Index本日のSmoke評価において、Qwen3 Maxの主榜スコアが85.96点から74.00点へと下落し、下落幅は12点に達した。

次元別分析:二極化が顕著

コード実行次元は100.00点のまま変わらず、資料制約次元は68.80点から95.70点へと大幅に上昇し、上昇幅は26.9点となった。主榜スコアの下落は主に、サイド榜のエンジニアリング判断が63.20点から48.40点へ低下したこと、およびタスク表現が87.50点から68.80点へ低下したことによる。誠実性評価も同時にpassからfailへと転落した。

変動要因の分析

Smoke評価は1日あたり10問のみで、各次元2問ずつであり、単日のスコアは出題抽選の影響を大きく受ける。Qwen3 Maxはコード実行と資料制約の2つの主榜次元においてそれぞれ横ばいと上昇を示しており、モデルのコア監査可能能力において系統的な劣化は生じていないことが示唆される。エンジニアリング判断とタスク表現の下落は、特定の問題タイプが抽選される確率の変化によって生じた短期的な変動である可能性が高い。

しかしながら、誠実性評価がpassから直接failへ転落したことは、通常の抽選による変動の範囲を超えている。この評価は参入基準となるものであり、一度failが発生した場合、通常はモデルの一貫性またはコンプライアンスに明確な問題があることを示しており、単純なスコア変動とは区別して扱う必要がある。

継続的な監視の必要性

単日のSmokeデータだけではモデルの真の劣化を判定するには不十分だが、誠実性評価の転落はすでに明確なシグナルを構成している。今後3〜5日間にわたり、同一モデルの同一次元におけるスコアの標準偏差を継続的に観測することを推奨する。主榜スコアが継続して80点を下回り、誠実性評価がfailのまま維持される場合は、正式な週次榜の再評価を開始すべきである。

現時点では、Qwen3 Maxは能力そのものに急激な低下が生じたというよりも、変動の大きい問題の組み合わせに遭遇した可能性が高い。ユーザーは本番環境での利用において、引き続きコード実行100.00点という安定したパフォーマンスを主な参考指標とすることができる。


データ出典:YZ Index | Run #194 | 元データを確認