豆包Pro、Smokeテストのメインランキングで9.9点急落――コード実行が100点から50点へ半減

YZ Index 2026年6月の11モデルを対象とした実測において、豆包Proのメインランキングスコアは昨日の82.36点から本日の72.50点へと9.9点下落した。主な原因はコード実行ディメンションが100.00点から50.00点へ低下したことにあり、一方で素材制約は60.80点から100.00点へ上昇した。この両者の平均がメインランキングスコアを直接押し下げた。

コード実行半減の直接的な影響

Smokeテストでは1日あたりコード実行問題が2問のみ出題される。豆包Proの本日のコード実行スコアが50.00点であるということは、少なくとも1問の実行結果が満点基準に達しなかったことを意味する。これは昨日の100.00点と鮮明な対照をなしている。素材制約が逆方向に39.2点引き上げたことは、本日はモデルが制約遵守において優れたパフォーマンスを発揮したことを示しているが、メインランキングはコード実行と素材制約の2項目のみを採用しているため、コード実行における50点の損失を相殺するには至らなかった。

問題の抽選による変動か、真の性能劣化か

Smokeテストは1日10問で、抽選のランダム性によるスコア変動は正常な範囲内に属する。豆包Proの本日のコード実行50.00点と昨日の100.00点との差は、難易度が高い、あるいはモデルとの適合度が低い問題が2問とも抽選で選ばれた可能性がある。エンジニアリング判断が56.50点から100.00点へ、タスク表現が94.00点から100.00点へそれぞれ上昇していることは、他の能力において系統的な低下が生じていないことを傍証している。

複数日にわたってコード実行スコアが低い水準に留まり続けた場合は、モデルの真の性能劣化の可能性を考慮する必要がある。現時点では1日分のデータに過ぎず、劣化と断定するには不十分である。誠実性評価はpassを維持しており、いかなる違反シグナルも検出されていない。

重点的な監視が必要か

1日で9.9点のメインランキング下落はSmokeテストにおいて極端な値とは言えないが、コード実行ディメンションが直接半減したことは記録に値する。同一ディメンションのスコアについて3〜5日間継続して標準偏差を観察することを推奨する。標準偏差が拡大し続けた場合、安定性スコアはさらに圧迫を受けることになる。現時点では1回のSmokeデータのみに基づいており、豆包Proの総合的な能力評価を引き下げる段階には至っていない。

コード実行50点と素材制約100点が同じ日に出現したことは、Smokeクイックテストが単一ディメンションの極端な変動を増幅させる効果を露わにした。

メインランキング72.50点は一部の同種モデルを依然として上回っているが、コード実行スコアの推移を継続的に追跡することが、豆包Proが調整局面に入ったかどうかを判断する唯一の信頼できる方法である。


データソース:YZ Index | Run #182 | 元データを見る