総合下落 重大度 10/10 2026-W22

Gemini 2.5 Pro コード実行下落 19.5 点

Gemini 2.5 Pro Run #131

スコア比較

次元 前期 今期 変動
メイン (v5) 67.0 47.7 -19.3
コード実行 88.2 56.3 -31.9
知識総合 55.8 42.3 -13.5
引用検証 79.3 53.0 -26.3
コストパフォーマンス 38.1 26.3 -11.8
安定性 34.3 35.3 +1
可用性 100.0 76.0 -24

影響次元

代码执行 (v5) -33.4
材料约束 (v5) -29
可用性 -24
性价比 -12.1
知识综合 (v5) -9.4
稳定性 -2.4

失点問題 Top 5

#1 CSV 单行解析 execution 100 0 -100 STRICT
#2 Debug:Webhook 幂等处理 execution 100 0 -100 STRICT
#3 稳定去重:字典列表 execution 100 0 -100 STRICT
#4 手机号规范化 execution 100 0 -100 STRICT
#5 两年 TCO 计算 grounding 88 0 -88 STRICT
Run #131 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-05-25 04:16 SGT
Gemini 2.5 Pro のプロフィールを見る