文心一言4.5の誠実性評価がFailに、コード実行は42.5点急騰も副榜で崩壊

文心一言4.5は本日のSmoke速報テストで、極めて分裂的な答案を提出した。主榜の得点は小幅上昇したものの、誠実性評価は一気にpassからfailへ転落。この変化は孤立した事象ではなく、多次元にわたる激しい変動の集中的表れである。

スコア分解:ハイライトと崩落の併存

コード実行の次元は50.00から92.50へ跳躍し、上昇幅は42.5点に達した。一方、材料制約は88.80から78.50へ後退。主榜は結果として6.54点の小幅上昇となり、74.00に到達した。しかし副榜のデータは崖崩れ式の下落を示している:工程判断は66.70から30.00へ、任務表現に至っては50.00から一気に10.00まで落ち込んだ。誠実性評価がpassからfailへ転じたことは、モデルが今回の10問テストにおいて、少なくとも参入基準のレッドラインに触れたことを意味する。

変動の出所:くじ引きか退化か

Smoke評価は毎日2問/次元のみで、サンプル数が少なく、単日の変動はもとより正常範囲内である。しかし今回の変化幅は通常のランダム区間を超えている。コード実行の大幅向上は、比較的容易なアルゴリズム問題を引き当てたことに起因する可能性があるが、工程判断と任務表現の崩壊は、モデルの真の能力変動により近い。とりわけ誠実性評価がpassからfailに転じたことは、通常、モデルが回答拒否、捏造、あるいは既定の制約違反といった事態に陥ったことを意味し、これは単なる問題の難易度では説明しきれない。

業界背景下のシグナル

最近、百度は検索とAIの融合において頻繁な動きを見せており、文心一言4.5もGPT-4oをベンチマークとしたチューニングを完了したばかりである。しかし実際の運用シーンでは、その指示遵守能力やマルチターン対話の安定性にはまだ差があるとのユーザーフィードバックが寄せられている。今回のSmoke評価における副榜の崩壊は、業界内の「モデルが大きくなるほど一貫性の問題が出やすい」という観察と一致する。比較すると、同時期の他の国産モデルでは、同種の速報テストで誠実性評価が直接failとなった事例はまだ出ていない。

重点的に注視すべきか

必要である。誠実性評価は参入基準であり、一度failとなれば、モデルが本番環境において安全およびコンプライアンスのリスクを抱えていることを意味する。主榜の微増は副榜の崖崩れを覆い隠すことはできず、長期的に見れば、これは開発者のエンジニアリング展開に対する信頼に影響する。連続3〜5日のSmokeデータを観察することを推奨する。誠実性評価が継続的にfailであるか、副榜が低位で推移するなら、基本的にモデルの真の退化であり、くじ引きの偶然ではないと判定できる。

あるモデルが42.5点と引き換えにFailを得たとき、本当に失ったのはスコアではなく、信頼される資格である。

データソース:YZ Index | Run #124 | 元データを表示