文心一言4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと下落し、1日の下落幅は27.2点となった。主な要因はコード実行次元が95.00から50.00へ直接下落したことであり、材料制約は80.50から75.00へとわずかに低下した。
抽選による変動か、それとも真の劣化か
Smoke評価は毎日わずか10問、各次元2問のみであり、サンプル数が極めて少ないため、1日の大幅な変動は正常範囲内である。しかし今回のコード実行次元は一度に45点を失っており、材料制約の5.5点の下落幅を大きく上回ることから、問題はコード関連タスクに集中していることがわかる。昨日の95点は、モデルが2つのコード問題の両方でほぼ満点に近かったことを意味し、本日の50点は2問とも重大な誤りまたは回答拒否が発生した可能性を示唆する。
2日連続で高難度のコード問題が出題された場合、モデルのスコアは自然に低下する。一方でモデル自体のコード生成における一貫性に問題が生じている場合は、より長い時間枠での検証が必要となる。現時点では1日分のデータのみであり、能力の劣化と直接判断することはできない。
最近の業界動向の影響
百度は最近、文心一言4.5のアップデートの重点をマルチモーダル理解と長文要約に置いており、コード能力に対する専門的な最適化リソースは縮小傾向にある。同時に、国内の他のモデルがコードベンチマーク上での反復速度を加速させており、客観的に同種の問題の難易度基準を引き上げている。エンジニアリング判断とタスク表現という2つのサイドランキング次元が本日それぞれ20点上昇していることも、モデルが非コードタスクにおける応答戦略を調整した可能性を裏付けている。
信頼性評価がwarnからpassに転じたことは、モデルの今回の回答に明らかなハルシネーションや違反コンテンツが見られなかったことを示し、基本的なコンプライアンス性は逆に改善している。
重点的な注視が必要か
現時点では抽選による変動である可能性が高いと判断されるが、引き続き3〜5営業日の連続観察を推奨する。コード実行次元が70点を継続的に下回る場合は、専門的な再測定を開始し、訓練データやアラインメント戦略の調整が存在するか確認する必要がある。
1日27.2点の変動自体はモデル能力の崩壊の証拠とはならないが、小サンプル下におけるSmoke評価の敏感性を露呈した。今後はより大規模なサンプルの週次ランキングデータと組み合わせて結論を出すべきである。
コード実行の半減は抽選の代償に過ぎないかもしれないが、継続的なモニタリングこそがモデルの真偽を判断する唯一の基準である。
データソース:YZ Index | Run #130 | 元データを確認
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接