Grok 4は本日のSmoke評価で明らかに分裂的な成績を提出した:素材制約次元は昨日の80.30点から直接59.00点まで下落し、1日の下落幅は21.3点に達した一方、コード実行は50点から一気に100点まで上昇し、メイン総合得点はこれにより63.64点から81.55点へと上昇した。
Smoke評価は毎日わずか10問、各次元2問であり、問題の抽選によるランダム性はもとより存在する。しかし21.3点の下落幅は、このモデルの直近7日間の素材制約の標準偏差範囲を明らかに超えている。過去データによると、Grok 4の素材制約の1日変動は通常±8点以内に収まっており、今回の変化は異常領域に入っている。
問題のランダム性か能力の退化か
第一の可能性は単純な抽選変動である。本日の2つの素材制約問題は、より厳格な引用境界や複数回にわたる衝突指示を含む可能性があり、Grok 4が処理する際に過剰生成や制約無視の状況が発生したかもしれない。もう一つの可能性はモデルの実質的退化である。xAIは最近Grok 4に対して複数回の重み更新を実施し、コードとツール呼び出し能力の強化に重点を置いてきた。これは本日のコード実行100点の表現と完全に一致するが、アライメント訓練において素材制約の強度の一部を犠牲にした可能性がある。
直近2週間の業界動向を見ると、xAIはGrok 4を企業向けAPI市場へ急速に推し進めており、「高スループット+ツールチェーン」のポジショニングを強調している。類似の優先順位調整は他モデルの歴史でも何度も発生している:チームがより多くの勾配更新を新能力に投入すると、古い制約は短期的に緩むことが多い。
継続的な注視が必要か
現時点では「追跡に値するが警報を発するには至らない」と判断する。素材制約次元は企業ナレッジベースやコンプライアンス文書などのシナリオにおけるモデルの可用性に直接影響する。来週同次元が引き続き65点を下回る場合、システム的退化と見なすべきである。逆に、明日または明後日に75点以上へ回復すれば、本日の問題が難しかったことに基本的に帰せられる。
注目すべきは、Grok 4の工程判断次元が本日50点で変わらない一方、タスク表現は50点から30点へ下落したことだ。これら2つのサブランキング指標が同時に弱含んでおり、制約能力が全体的なアライメント強度の影響を受けている可能性をさらに裏付けている。
Grok 4を使用する企業ユーザーに対しては、素材集約型タスクにおいて人手によるレビュー比率を増やすことを推奨する。特に契約書、ポリシー、社内ナレッジ抽出に関わるシナリオではなおさらだ。短期的にはコード実行と素材制約のシーソー関係を継続的に観察し、両者が同時に上昇したときこそ真に安定したシグナルとなる。
あるモデルがコード満点を追求するために素材制約を21点暴落させるとき、それは実は本当のアライメントコストをもって、あなたに告げているのだ:自分は文書管理者ではなく、ツールになりたいのだ、と。
データソース:YZ Index | Run #128 | 元データを表示
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接