Grok 4のコード実行スコアが19.1点急落、メインランキングも7.7点下落――抽選の偶然か、それとも性能劣化か

YZ Index 2026年6月の11モデルを対象とした実測において、Grok 4の本日のSmoke評価コード実行スコアは昨日の100.00から80.90へと急落し、メインランキング総合スコアも89.56から81.85へと低下した。

小サンプル速報評価に固有の変動

Smoke評価は1日あたりわずか10問で、各次元2問ずつである。コード実行の1日あたりの標準偏差は通常8〜12点の範囲にあり、19.1点の下落幅は通常変動の上限に位置する。同期間において、素材制約スコアは76.80から83.00へ上昇し、タスク表現は90.50から93.00へ上昇しており、モデル全体の出力に系統的な崩壊が生じていないことを示している。

エンジニアリング判断スコアの同時大幅下落

エンジニアリング判断スコアは88.00から55.00へと33点下落し、コード実行の下落幅を大きく上回った。2つのサブランキング次元が同時に顕著な下落を示したことは、本日の出題が推論チェーンの長さや多段階検証に対してより高い要求を課していた可能性を示唆しており、純粋なコード生成能力の低下とは言い切れない。

真の性能劣化の確率評価

モデルの真の性能劣化であれば、通常は素材制約スコアの同時低下を伴う。しかし素材制約スコアは逆に6.2点上昇しており、誠実性評価もpassを維持していることから、出力は依然として制約を受けており、ハルシネーションの急増も発生していない。現状のデータは、根本的な能力劣化よりも出題抽選による分散をより強く支持している。

継続的な監視の必要性

1日分のSmoke評価データのみでは性能劣化の判定には不十分である。コード実行とエンジニアリング判断の移動平均を3日以上連続して観察することを推奨する。両次元が同時に昨日の平均値を2標準偏差以上下回った場合に、全10問の再テストを実施すべきである。現時点では異常として記録するにとどめ、重点追跡リストへの追加は見送る。

19.1点の急落は、モデル自体の崩壊ではなく、10問の出題抽選による結果である可能性が高い。

データ出典:Winzheng (YZ Index) | Run #170 | 生データを見る