11モデルの新旧交代：Grok 4が首位獲得、DeepSeekシリーズが集団退場

2026年6月8日 33 約4分 Winzheng Index

Grok 4 代码执行新模型首秀主榜排名工程判断

今週のYZ Index v6メインランキングが示す最も直接的なシグナルは、旧モデルの一括退場と新モデルの一斉参入である。7つのデビューモデルのうち、Qwen3 Maxが80.9点、Grok 4が79.0点、文心一言4.5が79.0点で直接上位に入り、DeepSeek V3、R1、文心4.0、Grok 3、Qwen Max、Claude Opus 4.6、GPT-4oの7つの旧モデルを一度に評価プールから押し出した。

新モデルはデビューで高得点、旧モデルの退場ペースは予想を上回る

コア計算式は core_overall = 0.55×コード実行 + 0.45×材料制約であり、今週の新モデルはコード実行で軒並み87-94の高得点帯を叩き出した。豆包Proのコード実行は94.60、Grok 4は93.90、Qwen3 Maxは89.70で、いずれも同時期に退出したGPT-4o（59.8点）やClaude Opus 4.6（61.6点）を大きく上回る。材料制約の次元も同様で、Claude Opus 4.7は87.50に達し、旧版Claudeを遥かに凌駕している。

これは漸進的なイテレーションではなく、バージョン世代差の直接的な表れである。旧モデルの2025年末時点での材料制約は概ね70-75の区間に止まっていたが、新モデルは登場と同時に天井を85+まで引き上げ、旧ランキングは1週間のうちに無効化されてしまった。

Grok 4の首位獲得を支える実態

現在首位のGrok 4は、メインランキング89.90、コード実行93.90、材料制約85.00、エンジニアリング判断82.10である。コード実行では豆包Proに次ぐ2位だが、材料制約では豆包Proを3.4点リードしており、この0.45の重み付けがもたらす1.53点の優位性により、豆包Proは3位に押し出された。

Claude Opus 4.7は89.04点で僅差の2位につけ、材料制約87.50は現時点で最高値、エンジニアリング判断（サイドランキング、AI補助評価）93.10も最強である。ただしコード実行90.30はGrok 4に3.6点劣り、最終的に0.86点差で2位となった。

サイドランキングのシグナル：タスク表現に明確な分化

GPT-o3のタスク表現は単週で62.5点急上昇し、Claude Sonnet 4.6は57.8点上昇、Gemini 2.5 Proは54.6点上昇した。これらの上昇幅はメインランキングの変動を遥かに上回り、モデルが指示追従能力やマルチターン対話の一貫性において、依然として急速なイテレーションの余地を持つことを示している。

注目すべきは、安定性次元（スコアの標準偏差に基づいて計算）が今週はメインランキングに直接反映されていないものの、同種の問題に対する複数回回答の変動状況については継続的な追跡が必要であり、31.7点のモデルは実運用時に出力ドリフトが発生する可能性がある点である。

来週の変動要因は何か

7つの新モデルのうち、GPT-5.5と文心一言4.5は現在10位、11位に位置し、コード実行はそれぞれ81.90と78.00で、まだ5-8点の上昇余地がある。来週もイテレーションペースを維持すれば、メインランキングのトップ5はさらに圧迫されるだろう。

旧モデルが集団退場した後、評価プールの「世代差」は一気に均され、今後のランキングは歴史的な蓄積よりも単週の増分に大きく依存することになる。

新モデルはデビューで頂点に立ち、旧モデルは1週間で消える――2026年のAIランキングは、すでに「週次更新が生死を分ける」段階に突入した。

データソース：YZ Index | Run #154 | 元データを見る

11モデルの新旧交代：Grok 4が首位獲得、DeepSeekシリーズが集団退場

新モデルはデビューで高得点、旧モデルの退場ペースは予想を上回る

Grok 4の首位獲得を支える実態

サイドランキングのシグナル：タスク表現に明確な分化

来週の変動要因は何か

関連記事