Gemini 2.5 ProはWinzhengのYZ Index Smoke評価において、主榜スコアが昨日の89.79点から今日の70.53点へと19.3点下落した。そのうちコード実行ディメンションは100.00点から55.00点に低下し、素材制約ディメンションは77.30点から89.50点に上昇した。
データ分解:単一ディメンションが下落幅を主導
主榜はコード実行と素材制約の2ディメンションのみで構成されている。今日のコード実行55.00点は昨日の100.00点から45点下落し、主榜全体のパフォーマンスを直接引き下げた。素材制約は12.2点上昇したものの、コード実行の損失を補うには不十分だった。エンジニアリング判断は84.00点から82.00点へわずかに低下し、タスク表現は86.00点から90.00点に上昇したが、いずれも変動幅は5点以内であり、主榜への影響は限定的だった。
Smoke評価の特性と変動の原因
Smoke評価は1日あたりわずか10問、各ディメンション2問であり、サンプル数が少ないため、1日のスコアの標準偏差は本来大きくなりやすい。コード実行ディメンションが満点から55点へと直接急落したことは、過去の同種の速報評価で見られた一般的な変動区間を超えている。このような変化は、出題のランダム性による難易度の差異である可能性もあれば、特定のプログラミングタスクにおけるモデルの出力一貫性に問題が生じた可能性もある。単日のデータだけでは両者を区別することはできない。
素材制約ディメンションの今日のスコアは89.50点で、昨日の77.30点を上回っており、素材の制限に従う面でのモデルのパフォーマンスはむしろ向上していることを示している。この2つのコアディメンションが逆方向に変動したことは、今日の結果がモデル全体の能力の系統的な退化ではなく、特定ディメンションが試験問題の影響を受けたものに近いことをさらに示している。
重点的な注意が必要か
1日で19.3点という主榜の下落幅はSmoke評価の歴史において比較的大きな変動に該当するが、複数日にわたって同方向に連続下落している段階にはまだ達していない。誠実性評価は依然としてpassを維持しており、モデルの基本的なコンプライアンス面では新たな問題は発生していないことを示している。今後3〜5回のSmoke評価サイクル内でコード実行ディメンションのスコア分布を重点的に追跡し、70点を下回る記録が連続して確認された場合に、より詳細な多問題・長期間テストの実施を検討することを推奨する。
現時点のデータは1回の異常変動を示しているに過ぎず、モデルの実質的な退化を示す十分な証拠にはまだ至っていない。
データソース:YZ Index | Run #170 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接