Gemini 2.5 Pro がメインランキングで28点急落、コード実行が100点から半減

Gemini 2.5 Pro は YZ Index 2026年6月 Smoke 評価において、メインランキングのスコアが前日の99.28点から71.33点へと1日で28点下落した。コード実行ディメンションが100.00点から50.00点に急落したことが、今回の下落の唯一の主因となっている。

スコアの内訳:単一ディメンションが結果を左右

Smoke 評価は1日あたりディメンションごとに2問のみ出題される。コード実行の2問のうち少なくとも1問が不合格となり、そのディメンションで直接50点が失われた。素材制約は98.40点から97.40点へと1点のみの低下にとどまった。エンジニアリング判断は100.00点を維持し、タスク表現は96.30点から100.00点へと上昇した。メインランキングはコード実行と素材制約の加重平均で算出されるため、50点という大幅な下落が全体の順位を直接引き下げた。

変動の原因に関する判断

Smoke 評価はサンプル数が少なく、問題の抽選によるランダム性が最も考えられる主因である。コード実行タスクは特定の問題の難易度に敏感であり、高複雑度のプログラミング問題が1問出題されるだけで50点の落差が生じうる。モデルの真の性能劣化を確認するには、同種のタスクで複数日にわたってシステマティックなエラーが継続的に発生することが必要であり、1日分のデータではその結論を支持するには不十分である。

素材制約の低下がわずか1点にとどまっていることは、モデルが指示への準拠とコンテンツの境界制御において依然として安定していることを示している。エンジニアリング判断とタスク表現に低下が見られないことも、コア能力に全体的な劣化が生じていないことをさらに裏付けている。

継続的な監視の要否

今回の下落は、小サンプルによる迅速テストにおける通常の範囲内の変動に該当する。コード実行のスコアを3〜5営業日にわたって継続的に観察し、当該ディメンションが80点を下回る状態が続く場合に初めて詳細な評価を実施することを推奨する。現在の信頼性評価は依然として pass であり、いかなる参入警告もトリガーされていない。

1日で28点変動することは Smoke の過去の記録においてめずらしいことではなく、重要なのはランダムな事象と能力の劣化を区別することである。


データ出典:YZ Index | Run #191 | 生データを見る