Gemini 3.1 Proは本日のSmoke速測において、メインボードで11.1ポイントの下落を見せた。主な原因はコード実行次元が満点100から75へと一気に下落したことで、素材制約は69から75へと小幅に回復した。メインボードはこの2つの監査可能次元のみで構成されており、今回の変化が総合得点を直接押し下げた。
問題の偶然か真の劣化か
Smoke評測は1日あたりわずか10題で、2題で1次元に対応するため、サンプル数が少なく、単日の変動は本来正常範囲である。しかしコード実行が100から75への25点の下落幅は、通常の抽選範囲を超えている。昨日同モデルは同種のコードタスクで安定した成績を示していたが、本日は単純な関数実装や境界条件処理で連続してミスを犯しており、モデル出力の一貫性に問題が生じていることを示唆している。
素材制約次元は逆に6点上昇しており、これはモデルが引用制限や事実確認の部分では依然として一定の堅牢性を保っていることを示している。2つの監査可能次元の逆方向の動きは、全体的なシステム障害の可能性をさらに排除するものである。
最近の業界動向の影響
GoogleはGeminiシリーズの重点を最近マルチモーダルおよびAgentフレームワークへと移しており、コード専門の最適化リソースが分散している。コミュニティのフィードバックによれば、3.1バージョンは長コンテキストのコード補完シーンで論理の飛躍が偶発的に発生しており、今回のSmoke評測で露呈した問題と高度に一致している。エンジニアリング判断(サイドボード、AI補助評価)は10点から50点へと跳ね上がっており、これもモデルが非コードタスクで戦略調整を行っていることを裏付けているが、これはメインボードの監査可能次元には反映されていない。
同時期のClaudeやGPT-4oが同種の速測でコード実行得点を90点以上に維持しているのと比較すると、Gemini 3.1 Proの下落はより際立っている。
引き続き注目する価値はあるか
今回の下落は主にコード実行の実質的変動に起因しており、単なる問題運の問題ではない。Smokeデータを3〜5日連続で観察することを推奨し、コード実行が継続して85点を下回るようであれば、モデルがコード専門領域で段階的劣化を起こしている可能性を検討する必要がある。誠実性評価は依然passを維持しており、短期的には使用判断に影響しないが、開発者が本番環境でコード生成機能を呼び出す際には人手によるレビュー工程を増やすべきである。
現時点のシグナルは警戒を引き起こすに十分だが、大規模な移行を必要とするレベルには達していない。
コード実行の100点から75点への25点の落差は、いかなる宣伝文句よりも直接的にモデルの真の境界を露呈している。
データソース:YZ Index | Run #121 | 原データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接