豆包 Pro が83.91点で首位：2026-07-06 Smokeクイックテストデータ速報

2026年7月6日 34 約6分 Winzheng Index

赢政指数 Smoke快测 AI评测模型排名数据简报

2026-07-06 YZ Index Smoke クイックテストは11モデルをカバーし、豆包 Pro が83.91点で当日首位となった。Smokeは毎日10問のクイックテストであり、短期シグナルの観察に適しており、Full週間ランキングの結論と同一ではない。

今回のSmokeテストはコード実行と資料制約の2つのメインランキング次元のみをカバーしており、メインランキングの計算式は 0.55 × コード実行 + 0.45 × 資料制約 となっている。1日あたりのサンプル数が少ないため、単日スコアはモデル能力の長期的な評価ではなく、モニタリングシグナルとして参照するのが適切である。

当日ランキング

順位	モデル	メインランキング	コード実行	資料制約	誠実性
#1	豆包 Pro	83.91	75	94.8	pass
#2	GPT-5.5	80.45	75	87.1	pass
#3	DeepSeek V4 Pro	79.35	66.7	94.8	pass
#4	Gemini 3.1 Pro	79.35	66.7	94.8	pass
#5	Grok 4	79.35	66.7	94.8	pass
#6	Claude Sonnet 4.6	71.51	50	97.8	pass
#7	Claude Opus 4.7	70.16	50	94.8	pass
#8	GPT-o3	70.16	50	94.8	pass
#9	Qwen3 Max	70.16	50	94.8	warn
#10	Gemini 2.5 Pro	67.3	44.8	94.8	pass
#11	GLM-4.6	38.75	50	25	pass

データ解説

本日のWinzheng YZ Index Smokeクイックテストにおいて、豆包 Pro はメインランキング83.91で首位となり、コード実行75と資料制約94.8のバランスの取れた構成を示した。GPT-5.5はメインランキング80.45で、コード実行は同じく75だが資料制約は87.1にとどまり、資料制約次元での相対的な縮小が見られる。DeepSeek V4 Pro、Gemini 3.1 Pro、Grok 4 の3モデルはいずれもメインランキング79.35で並び、コード実行66.7・資料制約94.8と同一の配分を示し、コード実行がやや弱く資料制約が強いという類似したパターンを呈している。Claude Sonnet 4.6 はメインランキング71.51で、コード実行50・資料制約97.8と、資料制約の優位性が際立つ一方でコード実行の弱点が顕著である。

GLM-4.6 は前回同一条件のrunと比較してメインランキングが21.3点下降し、コード実行は38.7点低下、誠実性評価はfailからpassへと転換した。Gemini 2.5 Pro はメインランキングが16点低下し、コード実行が42.7点下降、資料制約は16.6点上昇した。GPT-o3 はメインランキングが9.6点低下し、コード実行が22点下降、資料制約は5.5点上昇した。これらの変化は単日の小サンプルテストで生じたものであり、設問のサンプリング変動によるものである可能性もあれば、モデルの実際のパフォーマンス低下を反映している可能性もあり、後続のrunで検証・確認が必要である。

全体的に見ると、上位モデルはコード実行と資料制約の強弱バランスにそれぞれ特徴がある。Claude Opus 4.7 と GPT-o3 はいずれもメインランキング70.16でコード実行50・資料制約94.8と同一の構成であり、Qwen3 Max もメインランキング70.16だが誠実性評価がwarnとなっている。Smokeクイックテストは小サンプルの単日シグナルであるため、現在のデータは当日の参考情報に留まり、長期的な判断の根拠とはならない。

主な変化

GLM-4.6：メインランキング-21.3点、コード実行-38.7点、誠実性 fail→pass
Gemini 2.5 Pro：メインランキング-16点、コード実行-42.7点、資料制約+16.6点
GPT-o3：メインランキング-9.6点、コード実行-22点、資料制約+5.5点
Gemini 3.1 Pro：メインランキング-9.2点、コード実行-30.3点、資料制約+16.6点
Claude Sonnet 4.6：メインランキング-8.3点、コード実行-22点、資料制約+8.5点

注目すべきシグナル

今回、公表可能な異常シグナルは確認されなかった。

この種のSmoke速報を読む際は、2つの点に重点を置くべきである。第一に、あるモデルが複数日連続して同種の弱点を露呈しているかどうか。第二に、誠実性評価がpassからwarnまたはfailへと移行しているかどうか。単日のコード実行または資料制約スコアの大幅な変動は、設問のサンプリングによるものである可能性もあるが、実際のパフォーマンス低下の早期シグナルである可能性もあり、後続のrunでの検証が必要である。

データ出典：Winzheng YZ Index | Run #215 | 元データを見る

豆包 Pro が83.91点で首位：2026-07-06 Smokeクイックテストデータ速報

当日ランキング

データ解説

主な変化

注目すべきシグナル

関連記事