Grok 4の材料制約スコアが25.6点急落、メインランキングは逆に87点へ上昇

YZ IndexのSmoke評価テスト(本日分)において、Grok 4の材料制約スコアは96.70点から71.10点へ25.6点下落したが、コード実行スコアは66.70点から100点へ上昇し、メインランキングは80.20点から87点へ上昇した。

複数次元での激しい変動は抽選要因を示唆

Smoke評価テストは1日あたり10問のみで、各次元2問ずつのため、1日単位のスコア標準偏差は本質的に大きくなりやすい。Grok 4は本日、材料制約以外にも、コード実行が33.3点上昇、タスク表現が31.2点上昇、エンジニアリング判断が12.5点上昇しており、4つの次元が同時に12点以上の変動を示した。これは通常のモデル改訂幅をはるかに超えており、全次元にわたるこのような激しい振れ幅は、モデル能力の系統的な低下ではなく、ランダムな問題抽選によるサンプル分散に起因するものとみるのが妥当である。

材料制約スコア低下の具体的な内容

材料制約次元が96.70点から71.10点へ低下したことは、本日の2問のグラウンディング問題において、モデルが明確な事実逸脱または情報の捏造を起こしたことを意味する。コード実行での満点パフォーマンスと合わせて考えると、Grok 4は純粋な論理推論タスクにおいて依然として高い水準を維持しており、問題は外部知識のアンカリングが必要なシナリオに集中していることがわかる。

継続的な注視が必要かどうか

1日単位のSmoke簡易テストの変動には、長期的なトレンドとしての意味はない。Grok 4のメインランキングはむしろ6.8点上昇し、誠実性評価もpassを維持していることから、コア能力への影響はないと言える。材料制約が本当に下落傾向に入っているかどうかを判断するには、少なくとも連続3日間のデータを観察することを推奨する。現時点でモデル全体の能力に関する結論を引き下げる必要はない。

今後3日間にわたって材料制約スコアが継続的に80点を下回る場合、xAIが知識更新またはアラインメント戦略において段階的な調整を行っている可能性を示唆するかもしれない。そうでなければ、通常の抽選ノイズとみなすことができる。


データソース:Winzheng (YZ Index) | Run #186 | 生データを見る