2026-07-06 YZ Index Smoke クイックテストは11モデルをカバーし、豆包 Pro が83.91点で当日首位となった。Smokeは毎日10問のクイックテストであり、短期シグナルの観察に適しており、Full週間ランキングの結論と同一ではない。
今回のSmokeテストはコード実行と資料制約の2つのメインランキング次元のみをカバーしており、メインランキングの計算式は 0.55 × コード実行 + 0.45 × 資料制約 となっている。1日あたりのサンプル数が少ないため、単日スコアはモデル能力の長期的な評価ではなく、モニタリングシグナルとして参照するのが適切である。
当日ランキング
| 順位 | モデル | メインランキング | コード実行 | 資料制約 | 誠実性 |
|---|---|---|---|---|---|
| #1 | 豆包 Pro | 83.91 | 75 | 94.8 | pass |
| #2 | GPT-5.5 | 80.45 | 75 | 87.1 | pass |
| #3 | DeepSeek V4 Pro | 79.35 | 66.7 | 94.8 | pass |
| #4 | Gemini 3.1 Pro | 79.35 | 66.7 | 94.8 | pass |
| #5 | Grok 4 | 79.35 | 66.7 | 94.8 | pass |
| #6 | Claude Sonnet 4.6 | 71.51 | 50 | 97.8 | pass |
| #7 | Claude Opus 4.7 | 70.16 | 50 | 94.8 | pass |
| #8 | GPT-o3 | 70.16 | 50 | 94.8 | pass |
| #9 | Qwen3 Max | 70.16 | 50 | 94.8 | warn |
| #10 | Gemini 2.5 Pro | 67.3 | 44.8 | 94.8 | pass |
| #11 | GLM-4.6 | 38.75 | 50 | 25 | pass |
データ解説
本日のWinzheng YZ Index Smokeクイックテストにおいて、豆包 Pro はメインランキング83.91で首位となり、コード実行75と資料制約94.8のバランスの取れた構成を示した。GPT-5.5はメインランキング80.45で、コード実行は同じく75だが資料制約は87.1にとどまり、資料制約次元での相対的な縮小が見られる。DeepSeek V4 Pro、Gemini 3.1 Pro、Grok 4 の3モデルはいずれもメインランキング79.35で並び、コード実行66.7・資料制約94.8と同一の配分を示し、コード実行がやや弱く資料制約が強いという類似したパターンを呈している。Claude Sonnet 4.6 はメインランキング71.51で、コード実行50・資料制約97.8と、資料制約の優位性が際立つ一方でコード実行の弱点が顕著である。
GLM-4.6 は前回同一条件のrunと比較してメインランキングが21.3点下降し、コード実行は38.7点低下、誠実性評価はfailからpassへと転換した。Gemini 2.5 Pro はメインランキングが16点低下し、コード実行が42.7点下降、資料制約は16.6点上昇した。GPT-o3 はメインランキングが9.6点低下し、コード実行が22点下降、資料制約は5.5点上昇した。これらの変化は単日の小サンプルテストで生じたものであり、設問のサンプリング変動によるものである可能性もあれば、モデルの実際のパフォーマンス低下を反映している可能性もあり、後続のrunで検証・確認が必要である。
全体的に見ると、上位モデルはコード実行と資料制約の強弱バランスにそれぞれ特徴がある。Claude Opus 4.7 と GPT-o3 はいずれもメインランキング70.16でコード実行50・資料制約94.8と同一の構成であり、Qwen3 Max もメインランキング70.16だが誠実性評価がwarnとなっている。Smokeクイックテストは小サンプルの単日シグナルであるため、現在のデータは当日の参考情報に留まり、長期的な判断の根拠とはならない。
主な変化
- GLM-4.6:メインランキング-21.3点、コード実行-38.7点、誠実性 fail→pass
- Gemini 2.5 Pro:メインランキング-16点、コード実行-42.7点、資料制約+16.6点
- GPT-o3:メインランキング-9.6点、コード実行-22点、資料制約+5.5点
- Gemini 3.1 Pro:メインランキング-9.2点、コード実行-30.3点、資料制約+16.6点
- Claude Sonnet 4.6:メインランキング-8.3点、コード実行-22点、資料制約+8.5点
注目すべきシグナル
- 今回、公表可能な異常シグナルは確認されなかった。
この種のSmoke速報を読む際は、2つの点に重点を置くべきである。第一に、あるモデルが複数日連続して同種の弱点を露呈しているかどうか。第二に、誠実性評価がpassからwarnまたはfailへと移行しているかどうか。単日のコード実行または資料制約スコアの大幅な変動は、設問のサンプリングによるものである可能性もあるが、実際のパフォーマンス低下の早期シグナルである可能性もあり、後続のrunでの検証が必要である。
データ出典:Winzheng YZ Index | Run #215 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接