豆包 Pro コード実行が80点暴落、メインランキングで1日に41.2点下落

豆包 Pro コード実行が80点暴落、メインランキングで1日に41.2点下落

豆包 Pro は本日の Smoke 評価でメインランキングが81.33点から40.12点へ直接下落し、下落幅は41.2点に達した。中核的な原因はコード実行次元が満点100点から20点へ崩落し、単日で80点を失ったことにある。

抽選による変動か、真の劣化か

Smoke 評価は1日わずか2問であり、コード実行次元で極端な低得点が出る場合、通常は出題抽選で高難度または周辺シナリオが集中したことを示唆する。材料制約次元はむしろ58.5から64.7へ上昇しており、モデルが制約遵守において体系的に劣化していないことを示している。エンジニアリング判断は38.4から10点へ下落しており、これも同じ一連の問題が複雑な多段階推論に偏った可能性を指し示す。

しかし単一次元で80点の下落幅は、通常の抽選変動範囲を超えている。YZ Index の安定性次元では豆包 Pro が現在わずか31.7点を示しており、過去の同類問題における得点の標準偏差が極めて大きく、一貫性が低いことを意味する。今回の暴落はモデル全体の能力崩壊というよりは、特定のコードシナリオにおける不安定な挙動である可能性が高い。

最近の業界動向との対照

字節跳動は最近、豆包の主力リソースをコストパフォーマンス最適化と中国語長文シナリオに投入しており、コード能力は重点的なイテレーション方向となっていない。同時期にDeepSeek-Coder-V2、Qwen2.5-Coderなどのオープンソースモデルが継続的に的を絞った更新をリリースしており、豆包は純粋なコードタスクにおける相対的な位置がやや後退している。本日のテストにおけるコード実行の極端な低得点は、その製品戦略の重点と一致している。

誠実性評価はwarnからpassへ転じており、モデルが今回の回答で明らかなハルシネーションや違反コンテンツを生成しなかったことを示し、基本的な信頼性は合格ラインを維持している。

継続的な注視が必要か

単日41.2点の下落幅については、今後3日間のデータを追跡する必要がある。コード実行次元が2日連続で40点を下回るようであれば、真の能力変動と判断できる。明日急回復するようであれば、基本的に出題抽選に帰因できる。現時点では豆包 Pro のコード関連タスクの優先度を引き下げ、安定性データの安定化を待つことを推奨する。

単一次元での80点暴落が露呈したのはモデルの崩壊ではなく、コードシナリオにおいて以前から存在していた激しい変動である。

データソース:YZ Index | Run #136 | 元データを表示