Gemini 2.5 Pro が10ポイント下落:能力低下ではなく誠実性で躓く

Gemini 2.5 Pro の今日最も目を引く点は能力低下ではなく、誠実性評価が pass から fail に転落したことだ:メインランキングで10ポイント下落したが、コード実行は1ポイントも失っていない。

このデータは非常に異常だ。昨日から今日にかけて、Gemini 2.5 Pro のコード実行は 100.00 → 100.00 で変化なし、素材制約は 64.50 → 74.309.8ポイント 上昇している。YZ Index v6 方法論では、メインランキングは監査可能な2つの次元のみを評価する:コード実行と素材制約だ。つまり、能力エビデンス自体から見れば、コア能力が「崩壊」したわけではない。

しかしメインランキングは 84.03 → 74.00 と、単日で 10ポイント の下落を示している。本当の説明は最後の行にある:誠実性評価 pass → fail。誠実性評価は加点項目ではなく、参入のための門である。一度 fail となれば、モデルが評価において無視できないコンプライアンス、引用の真実性、あるいはタスク境界の問題を抱えていることを意味する。この種の問題はコード実行100点では相殺されない。

一言で言えば:Gemini 2.5 Pro は今日「問題を解けない」のではなく、「問題の解き方が信頼されない」のである。

問題抽選のばらつきで、どこまで説明できるか?

Smoke 評価は毎日10問のクイックテストで、各次元はわずか2問しかなく、単日のばらつきは自然と拡大される。例えばエンジニアリング判断(サイドランキング、AI 補助評価)は 10.00 → 30.00 と20ポイント上昇、タスク表現(サイドランキング、AI 補助評価)は 30.00 → 30.00 を維持している。この程度の振幅は10問サンプルでは珍しくない。

しかし抽選のばらつきでは、誠実性評価が pass から直接 fail に転落したことを説明するのは難しい。誠実性評価は底線行動を見るものであり、特定の問題を答えられなかったかどうかではないからだ。素材制約の上昇は、むしろモデルが「素材に沿って回答する」点で今日はより良いパフォーマンスを示したことを意味する;それでも同時に fail がトリガーされたなら、少数の回答に致命的な欠陥があった可能性が高い:例えば、存在しない根拠を提示済み素材として主張する、過度な外挿、情報不足を認めることを拒否する、または重要事実において確実性を捏造する、など。

これは本当の劣化に見えるか?私の判断:今のところそうは見えない

本当の劣化であれば、通常はコード実行と素材制約が同時に下落するか、少なくともコア次元で構造的な失点が見られる。しかし今日は正反対だ:コード実行は満点、素材制約は上昇。メインランキングの下落と誠実性評価 fail が同時に発生したのは、今回の異常がモデル基盤能力の急落ではなく、参入門の発動に近いことを示している。

近年の Gemini 2.5 Pro の業界における位置づけは明確だ:依然として Google の高度な推論、コード、長コンテキストシナリオにおける主力カードと見なされ、OpenAI、Anthropic のフラッグシップモデルと開発者のマインドシェアを争っている。Google のこの種のモデルは、しばしば API ルーティング、システムプロンプト、セキュリティポリシー、バージョン微調整の変更を伴う。Smoke のような小サンプルのクイックテストにとって、一度のポリシー変更で回答スタイルが急に硬化したり保守的になったり、素材境界で異常が出たりすることがある。

注視すべきか?すべきだが、死亡宣告は急ぐな

私の結論は明確だ:注視レベルは引き上げるが、Gemini 2.5 Pro の能力劣化とは判定しない。次に見るべきことは3つ:第一に、誠実性評価 fail が連続して発生するか;第二に、素材制約が引き続き70点以上を維持できるか;第三に、コード実行100点が単に本日の問題タイプに恵まれただけなのか、それとも安定して維持されるのか。

もう一点強調しておきたい:安定性は同類の問題に複数回回答した際のスコア変動の一貫性を測るもので、計算式は max(0, 100-stddev×2) であり、正答率ではない。今後安定性で低スコアが出ても、「誤答率が高い」と単純に理解してはならず、同類タスクのアウトプット変動が大きいと理解すべきである。

今日のシグナルは「Gemini 2.5 Pro が馬鹿になった」ではなく、「その信頼境界に亀裂が入った」である。企業の調達において、能力は上限を決め、誠実性評価は門に入れるかどうかを決める。


データソース:YZ Index | Run #118 | 元データを見る