Gemini 2.5 Proは本日のSmoke評価でメインランキングが一気に22.6点を失い、コア実行次元は100点から95点に下落、マテリアル制約も小幅に低下した。一見「通常の変動」に見えるこの結果は、実はより深刻な問題を露呈している。
抽選による変動か、それとも実際の劣化か?
Smoke評価は1日あたり10問のみで、各次元2問という構成のため、単日スコアの標準偏差はもともと大きい。しかし今回、エンジニアリング判断は66.7から30へ、タスク表現は50から一気に10へ暴落しており、下落幅は過去平均をはるかに上回っている。実行とマテリアル制約の微減は問題難度の抽選で説明できるが、サブランキングの2次元が同時に崩壊したのは、モデルがエンジニアリング上のトレードオフや明確なタスク出力を要する問題に直面した際、回答の一貫性が著しく低下していることを示唆している。
YZ Indexの安定性次元では、Gemini 2.5 Proの最近のスコア標準偏差が高めであることが既に示されており、これは同種の問題に対するパフォーマンスが安定していないことを意味する。本日のサブランキング崩壊は、こうした不安定性の集中的な発露であり、単なる問題運の問題ではない可能性が高い。
業界動向が何を裏付けるか
最近のGoogleによるGeminiシリーズの反復改良は、安全性のアラインメントと拒否メカニズムに重点が置かれている。複数の開発者からのフィードバックによれば、モデルは具体的なエンジニアリング提案や複数案の比較を求められた際、曖昧で disclaimers の多い回答を返す傾向が強まっている。この「安全優先」の調整は、エンジニアリング判断とタスク表現というサブランキングの2次元に直接的な影響を及ぼしている。
同時に、Gemini 2.5 Proは複雑なコード実行シナリオにおいても中間ステップを省略するケースが増え始めており、実行次元でも小幅な減点が生じている。本日、誠実性評価がpassからfailに転じたのは、モデルが一部の問題で前後矛盾を示したり、核心的な問題への回答を拒否したりした可能性が高い。
重点的に注目すべきか
メインランキングは依然としてコード実行とマテリアル制約が主導しており、本日この2項目は下落したものの依然として高水準にあるため、モデルの基礎能力が全面的に崩壊したわけではない。しかし、エンジニアリング判断とタスク表現の半減レベルの下落、そして誠実性評価のfailは、通常の抽選変動の範囲を超えている。
Geminiを用いてエンジニアリング設計や構造化出力を行うユーザーにとって、本日のデータは明確なシグナルを発している:モデルの現バージョンは、複雑な判断や明確な表現が必要なシナリオにおいて、一貫性が明らかに低下している。短期的には、エンジニアリング上の意思決定出力に対する信頼度の重み付けを下げ、次のバージョン更新やより大きなサンプルでの再評価結果を待つことを推奨する。
メインランキングの22.6点の下落は抽選で説明できるかもしれないが、エンジニアリング判断の30点という崩壊と誠実性評価のfailは、もはや「運」の一言で覆い隠すことはできない。
データ出典:YZ Index (赢政指数) | Run #124 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接