YZ IndexのSmoke評価において、Grok 4の材料制約スコアは83.00から61.30へと21.7点下落し、コード実行スコアは80.90から100.00へと上昇した。
1日のスコア比較
昨日と今日のデータを比較すると、Grok 4のエンジニアリング判断は55.00から63.50へ上昇し、タスク表現は93.00から86.50へ下落した。メインランキングの総合スコアは81.85から82.59へ上昇し、誠実性評価はpassを維持した。材料制約の単項目における下落幅は他のすべての次元を大きく上回り、コード実行は満点に達した。
変動要因の分析
Smoke評価は1日あたり10問のみで、各次元2問ずつのランダム抽選形式であるため、変動幅が大きくなりやすい。材料制約の急落は、本日の問題が出典の明記や事実の根拠付けに対してより高い要求を課していたことに起因する可能性があり、モデルの回答に制約を逸脱した内容が増えたことでスコアが低下したと考えられる。コード実行の満点は、本日抽出された問題においてモデルの実行正確率が100%に達したことを示しており、昨日の80.90と対照的な結果となっている。
この変化をモデルの真の性能低下と断定するには、現時点では複数日にわたる同一次元の継続的なデータが不足している。1日あたり21.7点の差は、クイック評価のフレームワークにおいては抽選による変動範囲に近く、システム的な能力低下とは言えない。
継続的な注視が必要か
メインランキングのスコアは0.7点しか上昇しておらず、材料制約の大幅な下落はコード実行のスコア増加によって部分的に相殺されている。短期的には、この異常が全体的なランキングに与える影響は限定的である。ただし、次回以降の評価でも材料制約が61点付近にとどまる場合は、プロンプト理解またはコンテキスト制約能力に段階的な変化が生じているかどうかを判断する必要がある。
エンジニアリング判断とタスク表現の小幅な変動は正常範囲を逸脱しておらず、誠実性評価はpassを維持しており、参入基準に関わる問題は発生していない。
1日あたり21.7点の材料制約の差は、Smokeクイック評価が即時の状態を捉えることに適しており、長期的な能力の最終的な判断根拠としては不向きであることを示唆している。
今後の評価において材料制約が継続的に70点を下回る場合は、複数日の集計データに切り替えてから能力評価を行うことを推奨する。
データソース:YZ Index | Run #176 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接