Gemini 3.1 Pro は本日の Smoke 評価でメインボードのスコアが直接8.5点下落し、コード実行次元は66.70から57.20へと急落、素材制約次元も86.30から79.00へと低下しました。1日わずか10問のクイックテストにおいて、この単日下落幅はすでに極端な部類に入ります。
変動の要因:抽選か実質的退化か
Smoke 評価では毎日次元ごとにランダムで2問が抽出されるため、サンプル数が少なく単日の標準偏差が拡大しやすい傾向があります。コード実行次元が9.5点下落したのは、当日に対数計算や再帰最適化といった高難度問題が抽選された可能性が高いです。複雑な多段階推論において中間ステップを飛ばすような挙動があれば、スコアは直接的に低下します。
素材制約次元が7.3点下落した点はさらに警戒すべきです。この次元は主に、ユーザーが提供した素材の境界を厳密に遵守するかを評価するもので、本日の問題には混同しやすい外部知識が多く含まれていた可能性があります。Gemini 3.1 Pro が過剰な外挿を行えば、減点対象となります。
サブボードのデータが示す不整合のシグナル
エンジニアリング判断(サブボード、AI 補助評価)は58.40から50.00へ低下した一方、タスク表現は30.00から50.00へと大幅上昇しました。同一モデルが同日内でこれほど激しい次元逆方向の変動を示すことは、その出力一貫性が明らかに低下していることを意味します。安定性がわずか31.7点という事実と合わせて考えると、Gemini 3.1 Pro の現時点での回答品質には大きなランダム性が存在すると判断できます。
最近の業界動向による複合的影響
Google は最近、リソースを Gemini 2.5 シリーズおよびネイティブマルチモーダル能力の推進に集中させており、3.1 Pro バージョンのイテレーションペースは明らかに鈍化しています。一部の開発者からは、長いコードチェーンのデバッグ処理において、モデルが中間検証ステップを頻繁に省略し始めているとのフィードバックがあり、これは本日のコード実行次元の崩壊と非常に一致しています。
同時に、OpenAI o1 と Anthropic Claude 4 がコードベンチマークで継続的に先行していることも、Google にエンジニアリング実装層面での圧力を急増させています。リソース配分の偏りが、3.1 Pro の一部のサブ能力に一時的な「出血」を引き起こしている可能性があります。
重点的な注視が必要か
総合的に見ると、今回の下落は主に問題抽選の変動とモデル一貫性の低下が共同で引き起こしたものであり、システム的な能力退化ではありません。ただし、連続2週間にわたって同種の次元変動が発生した場合は、より長期的な7日移動平均の追跡を開始する必要があります。現時点では「観察期」であり、「警報期」ではないと判断します。
もし Gemini 3.1 Pro が来週の Smoke 評価でコード実行が62点以上に回復しない場合、開発者は本番環境のコード生成タスクにおいて、同モデルへの依存度を下げることを検討すべきです。
データソース:YZ Index (赢政指数) | Run #127 | オリジナルデータを表示
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接