YZ IndexによるSmoke評価の本日の結果において、Gemini 2.1 Proのメインランキングスコアは98.88点から69.31点に低下し、コード実行ディメンションは100.00点から50.00点へと直接下落、素材制約は97.50点から92.90点に低下した。
単日変動とディメンション別分析
Smoke評価は1日あたり10問のみで、各ディメンション2問ずつというサンプル数の少なさから、単日スコアの変動は正常な現象である。今回のコード実行ディメンションで50点という整数値での下落が見られたことは、当日抽出された2問のコード問題のうち、少なくとも1問が基準を全く満たさなかったことを示している。素材制約の低下はわずか4.6点にとどまり、このディメンションは比較的安定していることを示している。一方でエンジニアリング判断は79.20点から100.00点へと上昇し、タスク表現は100.00点を維持した。
問題の抽選による変動かモデルの劣化か
コード実行が100.00点から50.00点へと変動した幅は、素材制約の4.6点の低下幅を大きく上回っており、特定の問題の難易度や問題タイプの差異が原因である可能性が高い。YZ Indexのルールでは、Smoke評価における単日の変動が大きいのは正常な状況であり、複数日にわたる継続的なデータの裏付けがない限り、モデルに真の性能劣化が発生したとは判断できないと明示されている。エンジニアリング判断とタスク表現が満点であったことも、他の能力ディメンションにおいてモデルに系統的な問題が生じていないことを示している。
継続的な注視が必要か
今回のメインランキングスコア69.31点と昨日の98.88点との差は、主にコード実行という単一ディメンションによって生じている。Smoke評価が毎日ランダムに問題を抽出する特性を踏まえると、今回の50点という結果はモデルの能力が恒久的に低下したというよりも、問題の抽選を反映している可能性が高い。もし今後の評価においてコード実行ディメンションが70点を下回る状態が続くようであれば、注目優先度を引き上げる必要がある。現時点では単日のデータだけでは、モデルが劣化段階に入ったと判断するには不十分である。
誠実性評価はpassを維持しており、いかなる違反シグナルも検出されていない。安定性ディメンションが測定するのは、モデルが同種の問題に複数回回答した際のスコアの標準偏差であり、今回の単日スコアの高低とは無関係である。
50点が一度だけなら抽選の結果かもしれない。70点を下回る結果が3回連続して初めて、それは真のシグナルとなる。
データソース:YZ Index | Run #198 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接