豆包Pro メイン榜が18.4ポイント急落、コード実行は1日で30.8ポイント急減、真の退化かそれとも抽選運か?

豆包Pro は本日の Smoke 評価でメイン榜が96.06から77.64へと直接下落し、単日の下げ幅は18.4ポイントに達した。中でもコード実行次元は97.50から66.70へと崖を転がるように下落し、下げ幅は30.8ポイントに及んだ。一方で素材制約はわずか3.3ポイントの小幅下落にとどまった。このようなデータは毎日10問の高速テストではあまり見られない。

小サンプル抽選か、それとも真の能力変動か

Smoke 評価は毎日各次元につき2問のみを抽出するため、サンプル数が極めて小さく、単日スコアの標準偏差は元々大きい。今回のコード実行次元における30.8ポイントの下落は、問題難易度の抽選によるランダム性に起因する可能性が高い。例えば、本日抽出された2問のコード問題が複雑な多段階推論やエッジケースのAPI呼び出しを含んでいた場合、モデルが一歩でも間違えれば直ちに低得点となる。

ただし、誠実性評価が pass から warn に直接変わった点は、運だけでは完全に説明できない。warn は通常、モデルが回答の一貫性やフォーマット遵守において監査可能な問題が発生したことを意味し、今後の継続的な観察に値する。

最近の業界動向とモデル反復の背景

ByteDance は最近、豆包Pro をエンタープライズ向け主力モデルとして位置付け、コードとツール呼び出し能力の強化に重点を置いている。先週発表された内部ベンチマークでは、社内コード補完タスクにおいてまだ改善の余地があることが示されたが、公開評価には同期して反映されていない。今回の Smoke 結果と合わせて見ると、コード実行の大幅な落ち込みは、最新バージョンが特定シナリオにおいてロバスト性が不足している可能性を反映しているかもしれない。

同時に、サイド榜のエンジニアリング判断は30.00から58.40へ、タスク表現は10.00から30.00へと上昇しており、モデルが非コード系タスクにおいては引き続き進歩していることを示している。これは今回の下落が主にコード実行という単一次元に集中しており、全体的な能力崩壊ではないことを裏付けている。

重点的に注目すべきか

単日の Smoke データそのものに統計的有意性はなく、今後3〜5日連続で同一次元のパフォーマンスを追跡することを推奨する。コード実行が2日連続で75ポイントを下回り、かつ安定性次元(現在すでに高い変動を示している)と総合的に判断して初めて、真の退化シグナルと見なす必要がある。現時点では、抽選と版本微調整が重なった短期的な現象である可能性が高い。

豆包Pro は依然として急速な反復段階にあり、1回の高速テストの異常が長期トレンドを意味するわけではない。しかし、そのコード能力に依存する開発者にとって、今後2週間の連続評価結果がより信頼できる意思決定の根拠となるだろう。

1回の高速テストでの急落が露呈するのは、しばしばモデルの限界ではなく、小サンプル変動に対する我々の過剰解釈である。

データ出典:YZ Index | Run #126 | 元データを見る