文心一言4.5は本日のSmoke簡易テストで明確な分化を示した:エンジニアリング判断は50点から直接10点に下落し、タスク表現も30点から10点へ滑り落ちたが、素材制約は55.8点から80.5点へ跳ね上がり、最終的にメインランキングの総合得点を74点から88.48点へ引き上げた。
抽選の変動か、真の退化か
Smoke評価は毎日10問しか抽出せず、各次元ごとにわずか2問のため、サンプル数が極めて少なく、単日スコアの標準偏差は元々大きくなる。エンジニアリング判断とタスク表現の2問が、ちょうど多段階推論や厳密なフォーマット出力を要求する場面に当たれば、モデルが一歩でも外れると満点減点される。このような状況下では40点や20点の下落は統計的には正常範囲内であり、モデルの能力退化を直接判定することはできない。
一方、素材制約の大幅な向上は、本日抽選された問題が引用元やフォーマット要求がより明確で、文心一言4.5が引用リンクや数値の整合性で良好な表現を示した可能性が高い。メインランキングはコード実行と素材制約という2つの監査可能な次元のみを見るため、素材制約の24.7点の上昇が実行側の5点の微減を直接覆い隠した。
最近の業界動向の影響
過去2週間、百度は文心一言の検索シーンにおける grounding 能力の磨き上げに資源を集中させており、社内テスト版は「引用正確率」に対する専用最適化を実施している。これは本日の素材制約スコア上昇の方向性と一致しており、モデルが監査可能な制約次元において依然として反復を続けていることを示している。
一方、エンジニアリング判断とタスク表現はAI補助評価の側面ランキングに属し、百度公式はこの2項目に対する専用トレーニングログを公開していない。側面ランキングの問題自体が強い主観性を持つことを考慮すると、本日の低スコアは問題抽選のばらつきによる可能性が高く、モデル全体の戦略変更によるものではない。
重点的に注視する必要があるか
直ちに警報を発する必要はない。誠実性評価がfailからwarnに上昇したのは既に好材料であり、モデルが有害なリクエストの拒否や幻覚回避の基本性能において少なくとも悪化していないことを示している。3日以上連続で同種の側面ランキング低スコアが続いて初めて、深度評価を起動する価値がある。現時点での単日データは依然として抽選ノイズの範囲内にある。
観察期間を少なくとも5日間のSmoke累積結果まで延長し、週次ランキングデータと合わせて真のトレンドを判断することを推奨する。
単日の側面ランキング崩壊はモデル退化と同義ではなく、素材制約の真の向上こそが文心一言4.5の現時点で最も確実なシグナルである。
データ出典:YZ Index | Run #129 | 元データを表示
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接