この記事はまだ日本語に翻訳されていません。中国語の原文を表示しています。

Smoke评测全员腰斩:11模型主榜平均暴跌42分,代码执行维度集体失守

今日Smoke评测凌晨3点出炉,11个主流模型主榜集体崩盘,平均跌幅达42分。Gemini 3.1 Pro以40.48分登顶,但这一分数本身已较昨日暴跌33.5分,执行维度仅剩20分,约束维度65.5分。

执行维度为何突然失守

核心原因集中在代码执行维度。昨日多数模型执行分普遍在100分以上,今日直接腰斩至20或0。Gemini 3.1 Pro、豆包Pro、Gemini 2.5 Pro、Grok 4、DeepSeek V4 Pro、文心一言4.5六家执行分均为20,Claude Sonnet 4.6及以下五家直接归零。

公式显示,执行权重0.55,今日执行分崩盘直接导致整体主榜腰斩。约束维度虽有小幅波动,但不足以抵消执行损失。Qwen3 Max和Claude Opus 4.7执行分从100+跌至0,单日主榜跌幅分别达到52.4分和52.3分。

排名背后的真实信号

Gemini 3.1 Pro和豆包Pro并列前二,执行分同为20,约束分65.5 vs 64.7,差距仅0.36分,说明在当前测试集下,两者材料约束能力接近,而执行能力已无明显区分度。

Claude Sonnet 4.6约束分80.5为全场最高,却因执行0分仅排第7,印证材料约束与代码执行在当前模型中存在明显割裂。GPT-5.5与GPT-o3主榜同为29.93,约束分同为66.5,执行同为0,模型间已难以拉开差距。

异常背后的可能原因

全员暴跌极少见,最大可能是测试题目难度或评测标准在今日凌晨做了调整。执行维度从高位直接归零或降至20,暗示新增题目对代码正确性、边界处理或多步推理要求大幅提升。

另一个可能是部分模型在凌晨时段出现服务端降级或上下文处理异常,导致代码执行一致性下降。值得注意的是,Qwen3 Max、Claude Opus 4.7诚信评级从warn转为pass,但主榜仍大幅下跌,说明诚信改善无法弥补能力断层。

行业角度看,2026年5月模型迭代已进入精细化阶段,通用能力趋同后,代码执行成为最易暴露短板的能力。今日数据再次证明,约束维度相对稳定,执行维度波动剧烈,模型在真实工程场景下的可靠性仍存疑。

当所有模型同时在同一维度失守,问题大概率不在模型,而在于评测本身或基础设施。

今日结果对开发者选型给出明确信号:若任务重度依赖代码执行,当前任何模型都需做好充分兜底与人工校验。


数据来源:赢政指数 (YZ Index) | Run #136 | 查看原始数据