11モデル世代交代戦：首位は安定維持、Grokが最下位

2026年5月11日 437 約7分 Winzheng Index

Claude Sonnet 4.6 Grok 4 主榜排名模型评测代码执行

今週の本当の衝撃は誰かが「急騰」したことではなく、世代交代後に強者がより強くなり、弱者が完全に振り落とされたことだ。2026-W20、YZ Indexは11モデルを採用し、メインランキングは依然として監査可能な2つの次元のみを評価する：コード実行と材料制約、計算式はメインランキング=0.55×コード実行+0.45×材料制約。つまり、正しくコードを書けるか、材料に従って業務を遂行できるかが、ハードカレンシーである。

首位は変わらず、しかし王者の座は安全ではない

Claude Sonnet 4.6は83.54で引き続き1位、コード実行86.60、材料制約79.80。その強みは特定項目が突出していることではなく、両方とも高水準で安定していることにある：コードは戦えるし、材料を読んでもブレない。

しかし2位の豆包 Proはすでに82.63まで追い上げており、わずか0.91ポイント差。さらに重要なのは、豆包 Proのコード実行が88.30に達し、Claude Sonnet 4.6を上回っていることだ。これは純粋なコードタスクにおいて、豆包 Proがもはや「国産代替」のナラティブではなく、確実に第1集団入りしていることを示している。

今週の第1集団の争点は明確だ：Claude Sonnet 4.6は材料制約で勝ち、豆包 Proはコード実行で勝つ。

差は材料制約から生まれている：Claude Sonnet 4.6が79.80、豆包 Proが75.70で、4.10ポイントの差。メインランキングの重み付けでは材料制約が45%を占めるため、この4ポイントは豆包 Proを王者の座から締め出すのに十分だ。

世代交代リストは賑やかだが、「追加」を「進歩」と見なすな

今週の変動リストでは、文心一言 4.5がメインランキング↑72、DeepSeek V4 Pro↑65.2、Qwen3 Max↑64.9、Gemini 3.1 Pro↑63.6、Claude Opus 4.7↑62.5、GPT-5.5↑59.6、Grok 4↑41.5を示している。逆にDeepSeek V3、DeepSeek R1、文心一言 4.0、Grok 3、Qwen Max、Claude Opus 4.6、GPT-4oはすべて下落を示している。

ここははっきりさせる必要がある：これらの大幅な変動は主に初回参加または評価からの離脱によるもので、同一モデルが今週突然急騰または崩壊したわけではない。「評価からの離脱」を性能低下と理解するのは誤読であり、「初回参加」を週内の向上と理解するのも誤読だ。

本当に注目すべきは、新しい陣容が現在のランキングで占める位置だ。Claude Opus 4.7は81.12で3位、Gemini 3.1 Proは79.24で4位、Gemini 2.5 Proは78.45で5位。文心一言 4.5は78.17、DeepSeek V4 Proは77.73、Qwen3 Maxは77.21と、3つは1ポイント以内に密集し、第2集団を形成している。

GPT-o3の材料制約は、今週最も確実な実質変化

比較可能な変動の中で最も注目すべきはGPT-o3：材料制約+20.9。現在メインランキング75.69、コード実行77.80、材料制約73.10、9位。順位は高くないが、材料制約の大幅な修復は重要だ。なぜなら、この種の能力は、モデルが感覚で補完するのではなく、与えられた証拠に基づいて回答できるかどうかに直結するからだ。

GPT-o3が今後コード実行を同期して引き上げられれば、第3集団から第2集団に近づくチャンスがある。現在の問題は、その工程判断（サイドランキング、AI支援評価）が51.30で、サイドランキングのパフォーマンスは悪くないが、メインランキングは依然としてコードと材料という2つのハード指標でロックされていることだ。

Grok 4の49.20は、些細なミスではない

今週最も衝撃的なデータはGrok 4：メインランキング49.20、コード実行53.70、材料制約43.70、11位。10位のGPT-5.5の73.20とは丸々24.00ポイントの差があり、これは「やや弱い」ではなく断層だ。

さらに厄介なのは、Grok 4はメインランキングの2つの次元がともに低いことだ：コード実行が立ち行かず、材料制約はさらに足を引っ張っている。本格的な本番環境に投入されるモデルにとって、材料制約43.70は、与えられた材料に基づいてタスクを完了する際のリスクが非常に高いことを意味する。

サイドランキングのシグナル：Sonnetと豆包が弱点を補強中

今週Claude Sonnet 4.6の工程判断（サイドランキング、AI支援評価）は+10.2、豆包 Proの工程判断（サイドランキング、AI支援評価）は+10.1。これはトップモデルがメインランキングを伸ばすだけでなく、複雑なタスクでのトレードオフ能力も改善していることを示す。ただし強調すべきは、工程判断はサイドランキングであり、メインランキングの計算には入らず、コード実行と材料制約の代わりにはできないということだ。

Gemini 2.5 Proのコード実行-5.4は警告サインだ。現在メインランキングは78.45を維持しているが、コード実行は79.80まで低下している。今後材料制約が下支えを継続できなければ、第2集団における位置は文心一言 4.5、DeepSeek V4 Pro、Qwen3 Maxに継続的に圧迫されるだろう。

今週の結論：競争の焦点は「誰が話せるか」から「誰がミスをしないか」へ

今週のランキングは3つのシグナルを示している：第一に、Claude Sonnet 4.6が依然として総合最強だが、豆包 Proがすでに王者との差を1ポイント以内に縮めた；第二に、GPT-o3の材料制約の修復は継続的に観察する価値がある；第三に、Grok 4は現時点で主流の第1、第2集団と競争する基盤を備えていない。

また、安定性はメインランキングには入らない。これはモデルが同種の問題に複数回回答する際の一貫性を測るもので、スコアの標準偏差に基づいて計算され、正解率ではない。安定性スコアを回答の正解率と見なすのは、評価の意味の誤読だ。

来週最も注目すべきは誰が大声で叫ぶかではなく、誰がコード実行と材料制約の両方で同時にミスを減らせるかだ；モデル戦争はすでに「ミス率が勝敗を決める」段階に入った。

データソース：YZ Index | Run #112 | 元データを見る