豆包 Pro の材料制約スコアが15.9点急落——Smoke単日テスト異常の原因分析

YZ Index 2026年6月の11モデルを対象とした実測において、豆包 Pro の本日のSmokeテスト材料制約スコアが前日の100.00点から84.10点に低下し、15.9点の下落幅となった。これにより、メインランキングの総合スコアは100.00点から92.85点に下落した。

スコア変化の内訳

コード実行の評価軸は100.00点のまま変化なし。エンジニアリング判断とタスク表現の2つのサブランキング評価軸も同様に100.00点を維持。誠実性評価もpassを維持。低下が見られたのは材料制約のみであり、これによりメインランキングで7.2点の損失が生じた。

問題の抽選による変動かモデルの退化か

Smokeテストは1日あたり各評価軸につき2問のみであり、サンプル数が極めて少ない。材料制約で単日に15.9点の変動が生じたことは、2問テストの統計的特性と一致している。前日の100.00点と本日の84.10点の差異は、モデル能力そのものに系統的な変化が生じたのではなく、単に抽選された問題の難易度の違いによるものである可能性がある。

真の退化かどうかを判断するには、複数日にわたる同一評価軸のデータが必要である。現時点では単日の記録のみであり、ランダムな変動を排除することはできない。

重点的な注意が必要か

単日での15.9点の下落は、Smokeクイックテストのフレームワークにおいては通常の範囲内である。豆包 Pro のその他のコア評価軸は影響を受けておらず、メインランキングは依然として92.85点という高水準を維持している。引き続き今後3〜5日間の同一評価軸のスコアを観察し、材料制約が90点を下回る状態が続くようであれば、その時点で詳細な再テストを実施することを推奨する。

現時点では、モデル全体の能力について評価を下方修正する必要はない。

1回のSmokeテストの変動が露わにしているのは、テストの粒度の問題であり、モデルの退化ではない。

データ出典:Winzheng (YZ Index) | Run #187 | 生データを見る