文心一言4.5は本日のSmoke快速テストにおいて、メインランキングが74点から62.96点へ直接下落し、下落幅は11ポイントに達した。そのうちコード実行は100点から50点へ崩壊し、素材制約はわずか4.5点の小幅上昇にとどまった。これは小幅な変動ではなく、コアな監査可能な次元で明らかな断崖的下落が現れている。
抽選の変動か、真の退化か?
Smoke評価は1日わずか10題(各メインランキング次元につき2題)であり、サンプル数は極めて少なく、単日の標準偏差は本質的に大きくなる。コード実行次元の今回の2題は、複雑な複数ファイル依存や特定ライブラリのバージョン競合など、モデルの弱点となる境界ケースをちょうど突いた可能性があり、結果としてスコアが半減した。素材制約はむしろ上昇しており、参照制約においてモデルに体系的な退歩がないことを示している。
しかし、すべてを運に帰すこともできない。コード実行が満点から及格ラインへ、差分は50点に及び、通常のサンプリング変動範囲を大きく超えている。仮に2〜3日連続して50〜60点の区間に留まる場合、直近のアップデートでコードパスにトレードオフが行われた可能性がより高い。
最近の業界動向との対照
百度は3月末に文心一言4.5の推論コストを30%引き下げ、「より安定した中国語長文」を強調した。コスト最適化はしばしばデコード戦略の調整を伴い、一部の高難度コードシナリオは平均応答速度との引き換えに犠牲となる。これは今回のコード実行崩壊のタイミングと一致する。同時に、国内の競合DeepSeek-V3やQwen2.5-72Bはコードベンチマークで継続的に強化を進めており、百度は当面リソースをコード能力ではなく中国語シナリオへ傾斜させている可能性がある。
誠実性評価がfailからpassに転じたことは、モデルが今回の快速テストでハルシネーションや逸脱コンテンツを出さなかったことを示しており、この点はポジティブな信号である。
重点的に注目すべきか?
単日のデータでモデルの退化を判定することはできないが、コード実行次元は開発者の実使用シナリオに直結するため、3日以上連続して観察することを推奨する。当該次元が80点以上に戻らない場合、文心一言4.5を「オールラウンド候補」リストから一時的に除外し、コード能力がより安定した代替モデルを優先的に検討する必要がある。
エンジニアリング判断とタスク表現の2つのサイドランキング次元は今回一方が下落し一方が上昇しており、これも同様に、モデルが異なるタスクタイプにおいて表現を分化させつつあり、全体的な下落ではないことを示している。
コード実行50点は終着点ではないが、3日連続でこの区間に留まれば、文心一言4.5は本当に開発者というユーザー層を手放すことになる。
データソース:YZ Index | Run #138 | 元データを確認
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接