豆包Proは本日のSmoke評価で明らかな異常が現れ、マテリアル制約の次元が昨日の95点から一気に79.8点まで下落し、単日の下落幅は15.2点に達した。メインランキング全体も97.75点から90.91点に低下した。このデータは毎日わずか10問の簡易テストでは珍しく、注目に値する。
変動の原因:出題抽選かそれとも能力退化か
Smoke評価では毎日ランダムに2問を抽選してマテリアル制約をテストするため、サンプル数が少なく、単日のスコア変動は正常な範囲内である。しかし15.2点の下落幅は過去の平均的な変動区間を超えている。昨日のマテリアル制約95点は強力な引用正確性と幻覚抑制能力に対応していたが、本日の79.8点は、モデルがマテリアル付きタスクを処理する際に、与えられたマテリアルに従わない回答や過度な外挿が増えていることを示している。
もう一つの可能性は、モデル自体に短期的な退化が発生していることである。ByteDanceは最近、豆包シリーズに対して複数回の反復を行い、マルチモーダルと長文能力の強化に重点を置いている。仮にベースのアライメント戦略の調整がマテリアル遵守の優先順位に影響したならば、短時間でgroundingスコアの低下として現れる可能性がある。
側面データが裏付けを提供
注目すべきは、同じテストでエンジニアリング判断が50点から66.7点に上昇し、タスク表現が30点から50点に上昇したことである。これら2つのサブランキング次元の上昇は、モデルが推論連鎖と表現組織の面で全体的に低下していないことを示している。コード実行は引き続き100点満点を維持しており、大規模な能力崩壊の可能性をさらに排除している。
総合的に見ると、出題抽選による偶発性の拡大である可能性が高く、持続的な退化ではないと考えられる。しかし、連続2日間で類似のgrounding変動が現れた場合は、警戒を強める必要がある。
重点的に注目する必要があるか
現時点では単日のデータだけではモデルが退化軌道に入ったと判断するには不十分である。同一次元の傾向を3〜5日連続して観察し、マテリアル制約が継続的に85点を下回り、かつ標準偏差が拡大する場合に、深度再測定を開始することを推奨する。短期的には、ユーザーが豆包Proを使ってマテリアル付きQ&Aを処理する際は、人手による検証ステップを追加することができる。
単日15点級の変動は能力崩壊を意味しないが、連続変動は警報である。
データ出典:YZ Index | Run #123 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接