Gemini 3.1 Proは本日のSmoke評価でメインランキングから一気に33.5点を失った。中核的な原因はコード実行スコアが100.00から20.00へと急落したことだ。これは小幅な変動ではなく、コア能力が単日のテストでほぼ機能不全に陥ったといえる。
問題のくじ運か、それとも真の退化か
Smoke評価は毎日10問のみ、各次元2問で、サンプル数が少ないため単日のスコア変動は本来正常である。しかしコード実行次元での80点もの下落幅は、通常のランダム範囲を大きく超えている。素材制約はむしろ59.50から65.50に上昇しており、モデルが制約遵守の面で体系的な低下を示していないことがわかる。エンジニアリング判断も10.00から38.40へ上昇しており、全体的な能力崩壊の可能性も排除できる。
さらに注目すべきは、同じモデルが昨日はコード実行で満点を取れていたのに、本日は2問で即座に陥落した点だ。これは2つの可能性を示唆する。1つは本日抽選された問題がたまたまモデルの現在の弱点に的中したこと、もう1つはモデルが最近のアップデート後、複雑なコード生成とデバッグの堅牢性が低下した可能性である。
最近の業界動向による裏付け
Googleは過去2週間以内にGeminiシリーズに対して複数回のウェイト調整を行っており、長コンテキストとマルチモーダルアライメントの強化を重点としていた。過去のデータによれば、このような調整はしばしばコード実行能力を犠牲にする傾向がある。類似の状況はClaude 3.5 Sonnetの6月のアップデート後にも発生しており、当時もコード次元で連続2週間にわたって明らかな低下が見られた。
公開されているモデル更新ログを見ると、Gemini 3.1 Proの最新のウェイトプッシュは48時間前に発生しており、数学的推論と安全アライメントの最適化が重点だった。安全アライメントの強化は通常、モデルが「高リスクコード」リクエストを拒否する率を増加させるが、これは本日のコード実行低スコアと高度に一致する。
注視すべきか
注視すべきだ。コード実行はメインランキングで監査可能なわずか2つの次元のうちの1つであり、そのウェイトはエンジニアリングシナリオにおけるモデルの実用性を直接決定する。単日80点の下落幅は問題の難易度に部分的に起因する可能性があるとはいえ、連続2日間で同種の問題に対するパフォーマンスに極端な差異が現れたことは、モデルの出力一貫性がすでに合格ラインを下回ったことを示している。
- 明日のSmoke評価でコード実行が依然として40点を下回るなら、ランダムな変動ではなく体系的な退化と判定できる。
- スコアが80点以上に回復すれば、今回の事象は高分散イベントに分類でき、過度な解釈は不要となる。
あるモデルが中核次元で単日80点級の断崖を見せたとき、業界アナリストがまず追究すべきは運ではなく、更新ログのあの目立たない「安全アライメント」変更の一文である。
現時点で唯一のポジティブシグナルは、誠実性評価がfailからpassへと転じたことであり、今回のテストでモデルに明らかな幻覚や捏造が見られなかったことを示している。しかしこれはコード実行能力の実質的な低下を覆い隠すものではない。
Geminiに依存してコード生成を行う開発者には、今後48時間以内に重要タスクのデプロイを一旦保留し、少なくとも2回のSmoke評価結果による確認を待ってから判断することを推奨する。
データソース:YZ Index | Run #136 | 原データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接