Gemini 2.5 Pro の素材制約スコアが15.2点急落、コード実行は45点急騰

YZ Index 2026年6月のSmokeテストにおいて、Gemini 2.5 Pro の素材制約スコアが前日の92.50点から77.30点に低下し、1日あたりの下落幅は15.2点となった。一方、コード実行は55.00点から100.00点に上昇し、メインボードの総合スコアは71.88点から89.79点に上昇した。

1日10問の抽選による変動が最も有力な説明

Smokeテストは1日あたり各ディメンション2問、合計10問のみで構成されている。素材制約ディメンションは前日92.50点で高い通過率に対応していたが、今日は77.30点となり通過率が低下した。コード実行ディメンションは前日わずか55.00点だったが、今日は満点の100.00点となっており、今日抽選されたコード問題2問の難易度やタイプがこのモデルに適していたことを示している。エンジニアリング判断は73.50点から84.00点に上昇し、タスク表現は86.00点で変化なしであり、これらの変動はいずれも小サンプル抽選のランダム性と一致している。

モデルに真の性能劣化が生じた場合、通常は複数のディメンションが同時に低下するが、今回はコード実行が45点急騰し、メインボードの総合スコアもむしろ大幅に上昇しており、能力劣化ではなく抽選による変動を示している。

モデル劣化のシグナルとして即断する必要はない

素材制約ディメンションは、与えられた素材の範囲をモデルが遵守するかどうかに重点を置いている。1日あたり77.30点は依然として合格ラインの範囲内であり、エンジニアリング判断やタスク表現にも対応する下落は見られない。誠実性評価はpassを維持しており、モデルが回答拒否や内容の捏造といった違反行為を起こしていないことを示している。

わずか2日分のデータしかない状況では、15.2点の下落はモデルに系統的な劣化が生じたと断定するには不十分である。同じディメンションが複数日にわたって継続的に80点を下回った場合に、重点的に追跡すべきシグナルとなる。

今後の観察に関する提言

Gemini 2.5 Pro の素材制約スコアを、3回連続のSmokeサイクルにわたって追跡することを推奨する。今後2日間でこのディメンションが85点以上に回復した場合、今日の77.30点は抽選による異常と確認できる。75〜80点の範囲に留まり続けた場合は、正式な評価テストのgroundingディメンションのパフォーマンスと合わせて判断する。

現時点では、Gemini 2.5 Pro のメインボードスコア89.79点はすでに高い水準にあり、1日あたりの素材制約の変動が全体的な使用性に与える影響は限定的である。


データソース:Winzheng (YZ Index) | Run #166 | 元データを見る