2026-07-05 YZ Index Smoke クイックテストは11モデルをカバーし、豆包 Pro と Gemini 3.1 Pro が88.54点で当日首位に並んだ。Smokeは毎日10問のクイックテストであり、短期シグナルの観察に適しているが、Full週次ランキングの結論とは同一ではない。
今回のSmokeテストはコード実行と資料制約の2つのメインランキング次元のみをカバーしており、メインランキングの計算式は 0.55 × コード実行 + 0.45 × 資料制約 である。日次サンプル数が少ないため、単日スコアはモデル能力の長期的な評価ではなく、モニタリングシグナルとして活用することが適切である。
当日ランキング
| 順位 | モデル | メインランキング | コード実行 | 資料制約 | 誠実性 |
|---|---|---|---|---|---|
| #1 | 豆包 Pro | 88.54 | 97 | 78.2 | pass |
| #2 | Gemini 3.1 Pro | 88.54 | 97 | 78.2 | pass |
| #3 | Gemini 2.5 Pro | 83.32 | 87.5 | 78.2 | pass |
| #4 | Grok 4 | 81.44 | 75 | 89.3 | warn |
| #5 | Claude Sonnet 4.6 | 79.79 | 72 | 89.3 | pass |
| #6 | GPT-o3 | 79.79 | 72 | 89.3 | pass |
| #7 | DeepSeek V4 Pro | 77.72 | 88.7 | 64.3 | pass |
| #8 | GPT-5.5 | 74.79 | 72 | 78.2 | pass |
| #9 | Claude Opus 4.7 | 70.6 | 55.3 | 89.3 | pass |
| #10 | Qwen3 Max | 63.73 | 42.8 | 89.3 | pass |
| #11 | GLM-4.6 | 60.04 | 88.7 | 25 | fail |
データ解説
本日のYZ Index Smokeクイックテストにおいて、豆包 Pro と Gemini 3.1 Pro がメインランキング88.54で並んだ。両者はコード実行がともに97、資料制約がともに78.2であり、高コード実行と中程度の資料制約の組み合わせを示している。Gemini 2.5 Pro はメインランキング83.32、コード実行87.5、資料制約78.2で、同様にコード実行側に偏重している。Grok 4 はメインランキング81.44、コード実行75、資料制約89.3と、資料制約がより強い組み合わせを示している。
Claude Opus 4.7 はメインランキングが前回比24.7点下降し、そのうちコード実行が41.7点下降した。Gemini 3.1 Pro はメインランキングが18.1点上昇し、コード実行が25点、資料制約が9.7点それぞれ上昇した。Grok 4 はメインランキングが15.1点下降し、コード実行が24.2点下降し、誠実性評価がpassからwarnに変わった。Gemini 2.5 Pro はメインランキングが13.7点下降し、コード実行が12.5点、資料制約が15.1点それぞれ下降した。GPT-o3 はメインランキングが12.6点下降し、コード実行が25点下降した。これらの変動は、小サンプルの単日データにおいては問題サンプリングの揺らぎに起因する可能性もあれば、実際のパフォーマンス変化を反映している可能性もあり、後続の同条件での再実行による検証が必要である。
DeepSeek V4 Pro の資料制約は-15.8点の急落を記録しており、コード実行88.7との間に明確な乖離が生じている。このシグナルについても、偶発的な変動かどうかを複数回の再テストで判断する必要がある。
主な変動
- Claude Opus 4.7:メインランキング24.7点下降、コード実行-41.7点
- Gemini 3.1 Pro:メインランキング18.1点上昇、コード実行+25点、資料制約+9.7点
- Grok 4:メインランキング15.1点下降、コード実行-24.2点、誠実性 pass→warn
- Gemini 2.5 Pro:メインランキング13.7点下降、コード実行-12.5点、資料制約-15.1点
- GPT-o3:メインランキング12.6点下降、コード実行-25点
注目すべきシグナル
- DeepSeek V4 Pro:資料制約が急落 -15.8点
- GLM-4.6:本日の誠実性評価はfail(当日のSmokeデータに基づく)。
このようなSmoke速報を読む際には、2つの点に注目すべきである。第一に、あるモデルが複数日にわたって同種の弱点を示しているかどうか。第二に、誠実性評価がpassからwarnまたはfailに移行しているかどうか。単日のコード実行または資料制約スコアの大幅な変動は、問題サンプリングに起因する場合もあれば、実際の性能低下の初期シグナルである可能性もあり、後続の再実行による検証が必要である。
データソース:YZ Index | Run #214 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接