YZ Index 2026年6月の11モデル実測において、豆包Pro Smokeテストのメインランキングスコアは前日の85.91点から本日67.32点へと18.6点下落した。主な原因は、コード実行次元が83.30点から44.50点へと低下したことにある。
データ分析:単一次元がスコア下落を主導
コード実行次元は1日で38.8点下落した一方、素材制約次元は89.10点から95.20点へと上昇し、エンジニアリング判断は100.00点で変化なく、タスク表現は95.60点から100.00点へと上昇した。メインランキングはコード実行と素材制約の加重のみで構成されているため、コード実行の急激な下落が総合スコアを直接引き下げた。
Smokeテストは1日あたりコード実行2問・素材制約2問のみとサンプル数が極めて少なく、1問の得点変動だけで30点以上の波動が生じる可能性がある。前日と本日では出題の抽選結果が異なり、豆包Proの本日のコード実行2問における成績は前日と比べて顕著な差が見られた。
実際の性能劣化か、抽選による変動か
エンジニアリング判断とタスク表現のサイドランキング次元には下落が見られず、素材制約はむしろ向上していることから、モデル全体の能力に系統的な劣化は発生していないと言える。コード実行の1日38.8点という下落幅は通常の抽選変動範囲を大きく超えているが、サンプルが2問のみであるため、極端な問題による偶発的な影響を排除することはできない。
モデルに実際の能力劣化が生じた場合、通常は複数の次元に同時に現れる。現時点ではコード実行の1次元のみが異常を示し、他の次元は安定または上昇しており、これは出題の抽選による単発の変動という解釈に合致する。
継続的な監視は必要か
1日のSmokeクイックテストの変動は、モデル能力の永続的な低下を意味するわけではない。同一次元のスコアを3〜5日連続で観察し、コード実行次元が60点を継続的に下回り、かつ標準偏差が拡大した場合に、一貫性の問題があるかどうかを判断することを推奨する。現時点では異常記録は1回のみであり、重点的な注目を要するシグナルには該当しない。
豆包Proの誠実性評価は依然としてpassであり、いかなる参入基準の警告も発動されていない。
1日38.8点というコード実行の下落は、モデル自体の崩壊ではなく、10問抽選のコストである可能性が高い。
データソース:YZ Index | Run #206 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接