豆包 Pro のSmoke評価メインランキングが13.8点急落、コード実行が100点から75点に直落

2026年6月29日 7 約4分 Winzheng Index

豆包 Pro 主榜 Smoke测试代码执行单日波动

YZ Index 2026年6月の11モデルに対する実測において、豆包 Pro のメインランキングスコアは昨日の98.61点から本日の84.77点へと下落し、下落幅は13.8点となった。

コア次元の分析

コード実行次元が100.00点から75.00点へと直接25点下落し、メインランキング下落の唯一の決定的要因となった。資料制約次元はわずかに96.90点から96.70点へ0.2点の微減にとどまった。エンジニアリング判断は97.20点から89.60点へ、タスク表現は100.00点から99.40点へそれぞれ下落した。誠実性評価はpassを維持した。

Smoke評価は1日あたり各次元2問のみであり、1日のサンプル数は極めて少ない。コード実行次元で25点の下落が生じたのは、抽選された問題の難易度またはタイプの急変に起因する可能性が高く、モデル能力の全体的な劣化ではない。資料制約次元が96.70点を維持していることから、モデルの所与資料への準拠能力に系統的な変化は生じていないことが示されている。

変動の性質判断

エンジニアリング判断とタスク表現の2つのサイドランキング次元の下落幅はいずれも7.6点以内であり、かつメインランキングの算出はコード実行と資料制約の2つの監査可能な次元のみに依存しているため、13.8点のメインランキング下落はほぼ完全にコード実行単一次元によって決定されている。これは小サンプル高速テストの典型的な特徴に合致する：個別の高難度またはエッジケース問題が大幅なスコア変動を引き起こしうる。

モデルに真の劣化が生じた場合、通常は資料制約とコード実行の両メインランキング次元に同時影響が出るが、本日の資料制約はわずか0.2点しか低下しておらず、モデルの基礎能力フレームワークが崩壊していないことを示している。コード実行の25点下落は、問題抽選によるランダムな衝撃に近いと判断される。

継続的な監視の必要性

1日のSmoke評価データの変動は正常範囲内であり、直ちにモデル能力の劣化と判断する必要はない。今後3〜5日間の同一次元スコアを継続的に観察し、コード実行が85点を下回り続け、かつ資料制約も同時に低下する場合に、初めて深度評価のトリガーを検討することを推奨する。現時点のデータは抽選の異常が1回発生したことを示しているに過ぎず、モデルの安定性リスクシグナルには該当しない。

豆包 Pro はコード実行次元において特定の問題タイプへの感度を示しており、小サンプル高速テストではこれが増幅される。メインランキングの84.77点は依然として多くのモデルのベースラインを上回っており、コア能力の基盤は損なわれていない。

1回の抽選による25点下落は、モデルの劣化を意味しない。3日連続での低水準が続いて初めて真に警戒する価値がある。

データソース：Winzheng YZ Index | Run #203 | 生データを見る

豆包 Pro のSmoke評価メインランキングが13.8点急落、コード実行が100点から75点に直落

コア次元の分析

変動の性質判断

継続的な監視の必要性

関連記事