Gemini 2.5 Pro 材料制約が14点急落、メインランキングは逆に15.9点上昇——くじ運か、それとも真の劣化か?

Gemini 2.5 Pro は本日の Smoke 評価において、材料制約次元が91.50から77.50へ直接下落し、14点もの下げ幅を記録した。これは単日クイックテストにおいて顕著な異常値である。

データ分解:メインランキングとサブランキングの矛盾

メインランキングはコード実行と材料制約のみを見る。コード実行は95から100へ上昇したが、材料制約は大きく下落、最終的にメインランキングは依然として74.00から89.88へ上昇し、全体で15.9点の上昇となった。サブランキングのエンジニアリング判断は30.00から58.40へジャンプし、タスク表現は10.00から30.00へ上昇。2つのサブランキングの合計が総合スコアを押し上げ、材料制約の下落は完全に覆い隠された。

Smoke 評価は毎日10問のみ抽出し、2問/次元で、サンプル数は極めて小さい。一度高難度の材料制約問題に当たれば、スコアは大きく下がりやすい。昨日91.5、本日77.5という、この14点級の変動は小サンプルでは珍しくない。

真の劣化か、ランダム抽選か?

直近2週間のトレンドを見ると、Gemini 2.5 Pro の材料制約スコアは83-92の区間で小幅に振動しており、本日の77.5は明らかな低点である。一方、コード実行は95以上で安定して推移しており、モデルが構造化出力と論理チェーンにおいて依然として高水準を維持していることを示している。

もし単に抽選によるものであれば、明日の材料制約は高い確率で85以上に回復するだろう。しかし連続して2、3日材料制約が80を下回るようであれば、モデルが長コンテキストの事実一貫性において体系的な問題を抱えている可能性が高い。

最近の業界動向と考えられる誘因

Google は最近、Gemini 2.5 Pro のコンテキストウィンドウを200万トークンへさらに拡大し、同時に新しい思考連鎖圧縮アルゴリズムを内部テスト中である。ウィンドウが大きくなると、モデルが長文書を処理する際の「事実ドリフト」リスクが上昇し、これは材料制約次元と直接関連する。

さらに、Google は 2.5 Pro の重みをマルチモーダル整合性へ傾斜させる動きを加速しており、純テキストの事実制約能力は一時的に犠牲になっている可能性がある。これは本日の材料制約急落の時期と一致する。

重点的に注視すべきか?

現時点では抽選変動による解釈が主であるが、材料制約が連続して80を下回る場合は警戒が必要である。誠実性評価が fail から warn に変わったことは、モデルが有害リクエストの拒否と事実一貫性において改善を見せており、全面的な劣化ではないことを示している。

連続3日間のデータ追跡を推奨する。材料制約が80以下で持続的に現れる場合、さらに長文ベンチマーク(例:NarrativeQA)と組み合わせて検証することで、真の劣化段階に入ったかどうかを結論づけることができる。

材料制約の14点の下げ幅は鏡のように、小サンプルクイックテストの残酷さを映し出し、モデルがコンテキストを拡張する際に潜む代償をも映し出している。

データ出典:YZ Index | Run #126 | 元データを見る