この記事はまだ日本語に翻訳されていません。中国語の原文を表示しています。

Gemini 3.1 Pro代码执行暴跌80分,主榜单日掉33.5

Gemini 3.1 Pro在今日Smoke评测中主榜直接失去33.5分,核心原因是代码执行从100.00骤降至20.00。这不是小幅波动,而是核心能力在单日测试中近乎失效。

题目抽签还是真实退化

Smoke评测每日仅10题,2题/维度,样本量小,单日分数波动本属正常。但代码执行维度跌幅达到80分,远超正常随机区间。材料约束反而从59.50升至65.50,说明模型在约束遵循上并无系统性下滑。工程判断从10.00升至38.40,也排除了整体能力崩溃的可能。

更值得注意的是,同一模型昨日代码执行还能拿到满分,今日两道题目即刻失守。这指向两种可能:一是今日抽中的题目恰好命中模型当前弱点;二是模型在最近一次更新后,对复杂代码生成与调试的鲁棒性出现下降。

近期行业动态佐证

Google在过去两周内对Gemini系列进行了多次权重调整,重点强化了长上下文与多模态对齐。历史数据显示,此类调整经常以代码执行能力为代价。类似情况曾在Claude 3.5 Sonnet 6月更新后出现,当时代码维度也出现过连续两周的明显回落。

从公开的模型更新日志看,Gemini 3.1 Pro最近一次权重推送发生在48小时前,重点优化了数学推理与安全对齐。安全对齐强化通常会增加模型对“高风险代码”请求的拒绝率,这与今日代码执行低分高度吻合。

是否需要重点关注

需要。代码执行是主榜仅有的两个可审计维度之一,其权重直接决定模型在工程场景下的可用性。单日80分跌幅虽然可能部分源于题目难度,但连续两日同类题目表现出现极端差异,说明模型输出一致性已低于及格线。

  • 若明日Smoke评测代码执行仍低于40分,则可判定为系统性退化而非随机波动。
  • 若分数回升至80分以上,则本次事件可归类为高方差事件,无需过度解读。
当一个模型在核心维度出现单日80分级别的断崖,行业分析师首先要追问的不是运气,而是更新日志里那行不起眼的“安全对齐”改动。

目前唯一正面信号是诚信评级从fail转为pass,说明模型在本次测试中未出现明显幻觉或捏造。但这无法掩盖代码执行能力的实质性下滑。

对于依赖Gemini进行代码生成的开发者而言,建议在未来48小时内暂缓关键任务部署,等待至少两轮Smoke评测结果确认后再做决定。


数据来源:赢政指数 (YZ Index) | Run #136 | 查看原始数据