Grok 4のSmoke評価でメインスコアが1日で15.3点急落、コード実行は31.4点下落

YZ Indexによる本日のSmoke評価において、Grok 4のメインスコアは97.98点から82.73点へと下落し、降下幅は15.3点に達した。コード実行ディメンションは100.00点から68.60点へと直接落ち込んだ。

1日10問の抽選がもたらす変動幅

Smoke評価は1日あたりディメンションごとに2問のみ、合計10問で構成される。コード実行ディメンションは1日で31.4点を失った一方、資料制約は95.50点から100.00点へ上昇し、タスク表現は91.30点から100.00点へ上昇した。このようなディメンション間の逆方向の動きは、少数サンプル抽選の統計的特性と一致している。エンジニアリング判断ディメンションは92.40点から77.20点へと下落し、コード実行と同じ方向に下がったが、その幅はコード実行よりも小さかった。

問題セットの中に多段階のデバッグや特定ライブラリの呼び出しを要するコード問題が含まれる場合、1日のスコアが30点以上振れることは珍しくない。昨日の100.00点と本日の68.60点の差は、2問のサンプルという条件下では決して稀ではない。

真の能力低下か、それとも抽選結果か

現時点のデータは単日のパフォーマンスを示すに過ぎず、モデルの能力が退化しているという結論を支持するものではない。資料制約とタスク表現の2つのディメンションはむしろ当日の最高値を記録しており、モデルが制約遵守と表現明確度において系統的な問題を抱えていないことを示している。誠実性評価が「pass」を維持していることも、明らかな違反やハルシネーションの急増を排除している。

複数日にわたって同じディメンションで低スコアが続いた場合に初めて、モデルのアップデートや学習後の残留問題が示唆される可能性がある。1回のSmoke結果は、能力の健康診断というよりも宝くじの抽選に近い。

注視すべきかどうか

安定性の観点から見ると、1日で31.4点の落差はGrok 4のコード実行タスクにおける一貫性にまだ改善の余地があることを示唆しているが、これは正確率そのものとは無関係である。メインスコアの82.73点は依然として同種の多くのモデルの日常平均値を上回っており、継続的な警戒ラインには達していない。

観察ウィンドウを7日以上に延ばしてから、構造的な下落が存在するかどうかを判断することを推奨する。現時点でGrok 4の総合的な能力について結論を下す必要はない。

Smokeクイックテスト1回の激しいスコア変動が露わにするのは、多くの場合、問題のばらつきであり、モデルの究極の上限ではない。

データソース:YZ Index | Run #206 | 元データを見る