豆包 Pro が83.91点で首位:2026-07-06 Smokeクイックテストデータ速報

2026-07-06 YZ Index Smoke クイックテストは11モデルをカバーし、豆包 Pro が83.91点で当日首位となった。Smokeは毎日10問のクイックテストであり、短期シグナルの観察に適しており、Full週間ランキングの結論と同一ではない。

今回のSmokeテストはコード実行と資料制約の2つのメインランキング次元のみをカバーしており、メインランキングの計算式は 0.55 × コード実行 + 0.45 × 資料制約 となっている。1日あたりのサンプル数が少ないため、単日スコアはモデル能力の長期的な評価ではなく、モニタリングシグナルとして参照するのが適切である。

当日ランキング

順位モデルメインランキングコード実行資料制約誠実性
#1豆包 Pro83.917594.8pass
#2GPT-5.580.457587.1pass
#3DeepSeek V4 Pro79.3566.794.8pass
#4Gemini 3.1 Pro79.3566.794.8pass
#5Grok 479.3566.794.8pass
#6Claude Sonnet 4.671.515097.8pass
#7Claude Opus 4.770.165094.8pass
#8GPT-o370.165094.8pass
#9Qwen3 Max70.165094.8warn
#10Gemini 2.5 Pro67.344.894.8pass
#11GLM-4.638.755025pass

データ解説

本日のWinzheng YZ Index Smokeクイックテストにおいて、豆包 Pro はメインランキング83.91で首位となり、コード実行75と資料制約94.8のバランスの取れた構成を示した。GPT-5.5はメインランキング80.45で、コード実行は同じく75だが資料制約は87.1にとどまり、資料制約次元での相対的な縮小が見られる。DeepSeek V4 Pro、Gemini 3.1 Pro、Grok 4 の3モデルはいずれもメインランキング79.35で並び、コード実行66.7・資料制約94.8と同一の配分を示し、コード実行がやや弱く資料制約が強いという類似したパターンを呈している。Claude Sonnet 4.6 はメインランキング71.51で、コード実行50・資料制約97.8と、資料制約の優位性が際立つ一方でコード実行の弱点が顕著である。

GLM-4.6 は前回同一条件のrunと比較してメインランキングが21.3点下降し、コード実行は38.7点低下、誠実性評価はfailからpassへと転換した。Gemini 2.5 Pro はメインランキングが16点低下し、コード実行が42.7点下降、資料制約は16.6点上昇した。GPT-o3 はメインランキングが9.6点低下し、コード実行が22点下降、資料制約は5.5点上昇した。これらの変化は単日の小サンプルテストで生じたものであり、設問のサンプリング変動によるものである可能性もあれば、モデルの実際のパフォーマンス低下を反映している可能性もあり、後続のrunで検証・確認が必要である。

全体的に見ると、上位モデルはコード実行と資料制約の強弱バランスにそれぞれ特徴がある。Claude Opus 4.7 と GPT-o3 はいずれもメインランキング70.16でコード実行50・資料制約94.8と同一の構成であり、Qwen3 Max もメインランキング70.16だが誠実性評価がwarnとなっている。Smokeクイックテストは小サンプルの単日シグナルであるため、現在のデータは当日の参考情報に留まり、長期的な判断の根拠とはならない。

主な変化

  • GLM-4.6:メインランキング-21.3点、コード実行-38.7点、誠実性 fail→pass
  • Gemini 2.5 Pro:メインランキング-16点、コード実行-42.7点、資料制約+16.6点
  • GPT-o3:メインランキング-9.6点、コード実行-22点、資料制約+5.5点
  • Gemini 3.1 Pro:メインランキング-9.2点、コード実行-30.3点、資料制約+16.6点
  • Claude Sonnet 4.6:メインランキング-8.3点、コード実行-22点、資料制約+8.5点

注目すべきシグナル

  • 今回、公表可能な異常シグナルは確認されなかった。

この種のSmoke速報を読む際は、2つの点に重点を置くべきである。第一に、あるモデルが複数日連続して同種の弱点を露呈しているかどうか。第二に、誠実性評価がpassからwarnまたはfailへと移行しているかどうか。単日のコード実行または資料制約スコアの大幅な変動は、設問のサンプリングによるものである可能性もあるが、実際のパフォーマンス低下の早期シグナルである可能性もあり、後続のrunでの検証が必要である。


データ出典:Winzheng YZ Index | Run #215 | 元データを見る