Strict問題ゼロ化 重大度 8/10 2026-W24

GPT-o3 総合 Strict問題ゼロ化

GPT-o3 Run #154

スコア比較

次元 前期 今期 変動
メイン (v5) 60.0 72.6 +12.6
コード実行 84.5 82.2 -2.3
知識総合 53.9 91.2 +37.3
引用検証 71.7 79.3 +7.6
コストパフォーマンス 8.5 10.5 +2
安定性 33.8 58.0 +24.2
可用性 100.0 100.0 +0

影響次元

execution

失点問題 Top 1

#1 蓄水池采样 100 0
Run #154 · 公式 v7 · 判分 v6.1 · 题库 v6 · 2026-06-08 04:18 SGT
GPT-o3 のプロフィールを見る