豆包Pro、材料制約スコアが24点急落――コード実行は38.4から100へ急騰

本日のSmokeテストにおいて、豆包Proの材料制約スコアは昨日の84.80から60.80へ低下し、24点下落した。コード実行は38.40から100.00へ上昇し、61.6点増加した。メインランキングのスコアは59.28から82.36へ上昇した。

極端な反方向の変動は問題抽選の確率を示唆

Smokeテストは1日わずか10問で、各次元2問ずつである。材料制約とコード実行が同時に60点以上の差を示すことは、統計的には24時間以内にモデルの能力が構造的に変化したというよりも、小サンプルの抽選結果に近い。材料制約の問題で、ユーザーの指示に厳密に従うことや越境を拒否するシナリオのケースが抽選された場合、スコアが急落しやすい。一方、コード実行の問題で簡単なPythonやSQLタスクが抽選された場合、満点を取りやすい。

エンジニアリング判断は84.50から56.50へ低下し、同様に大幅な下落を示しており、当日の問題の組み合わせが昨日の分布から乖離していることをさらに裏付けている。タスク表現はわずか0.5点の微増にとどまり、相対的に安定を保っており、モデルの基盤となる生成能力に系統的な退化が生じていないことを示している。

実際の能力退化の確率が低いことを示す証拠

モデルに実際の能力退化が発生した場合、通常は複数の次元で同時かつ継続的な低下を伴うものであり、単一の次元が急落しながら同時に別の次元が急騰するものではない。豆包Proの本日のメインランキングスコアはむしろ23.1点上昇しており、コード実行の満点がランキング全体を引き上げる効果が、材料制約の損失を大きく上回っていることを示している。誠実性評価はpassを維持しており、いかなる違反シグナルも発生していない。

YZ Indexの日次Smokeテストフレームワークにおいて、1日の標準偏差が20点を超えるモデルのスコアは、安定した能力よりも問題のランダム性を反映している場合が多い。豆包Proの今回の材料制約60.80点とコード実行100.00点の組み合わせは、典型的な高分散サンプルに該当する。

継続的な監視が必要か

1回のSmokeテストの激しい変動だけでは、モデルの能力退化の十分な証拠とはならない。材料制約の中央値を3〜5営業日にわたって継続的に観察し、この次元が70点を下回り続け、かつ標準偏差が依然として高水準を維持する場合に限り、深度評価の実施を検討することを推奨する。現在のデータは、当日の問題抽選によってもたらされた統計的ノイズを示しているに過ぎない。

材料制約に依存するアプリケーションシナリオについては、開発者は一時的にプロンプト検証や後処理フィルタリングを追加し、単日変動のリスクをヘッジすることができる。

24点の急落と61.6点の急騰が同時に発生したことは、本日のSmokeテストにおける真の変数が問題であり、モデルではないことを示している。

データソース:Winzheng (YZ Index) | Run #176 | 元データを見る