Grok 4が74.22点でトップ、GPT-o3が51.56点で最下位――WDCDスコア差22.66点

Grok 4はWDCD守約テストにおいて74.22点で第1位となり、GPT-o3は51.56点で最下位となった。両者の差は22.66点である。

今回のWDCDランキングは明確な二極化を示している。Grok 4のR3スコアは1.22点で、2位のQwen3 Maxの1.09点を上回り、最下位のGPT-o3の0.25点を大きく引き離した。R3の配点は2点で総合スコアの半分を占め、このラウンドが最終順位を直接左右する。Gemini 2.5 ProはR1で満点1.00点を獲得したものの、R3は0.97点にとどまり、最終的に3位となった。

首位と最下位モデルのスコア内訳

Grok 4は3ラウンドを通じてR1が0.97点、R2が0.78点、R3が1.22点と全体的に高い水準を維持した。最下位のGPT-o3はR1で1.00点、R2で0.81点を記録したにもかかわらず、R3ではわずか0.25点にとどまり、前2ラウンドでは制約を維持できるものの、第3ラウンドで直接的な圧力をかけられると急速に崩壊することを示した。Claude Opus 4.7のR3も0.34点にすぎず、GPT-o3とともに下位グループを形成している。

上位3位のGrok 4・Qwen3 Max・Gemini 2.5 ProのR3平均スコアは1.09点であるのに対し、下位2位のClaude Opus 4.7とGPT-o3のR3平均はわずか0.295点で、差は約4倍に達する。

R3崩壊率と全体的なパフォーマンス

全体統計によると、R3の崩壊率は47.7%、満点率はわずか19.3%である。これは、約半数のモデルが第3ラウンドで直接的な圧力をかけられた際に初期の制約を維持できないことを意味する。Claude Sonnet 4.6もR1で満点1.00点を獲得したが、R3は0.69点にとどまり、最終的に8位となった。前半の優れたパフォーマンスがあっても、耐圧能力の不足が総合スコアを押し下げることを示している。

評価対象の全11モデルは前回と比較してスコアが低下した。その中でGPT-5.5は23.5点、Claude Sonnet 4.6は23.2点、Gemini 3.1 Proは22.7点それぞれ低下した。最も大きく低下した3モデルのうち2モデルはR3スコアが0.70点を下回っており、プレッシャーラウンドのパフォーマンスがスコア低下の主因であることが裏付けられた。

上位グループと下位グループの差

上位4モデルのWDCDスコア範囲は74.22点から64.84点、下位4モデルの範囲は60.16点から51.56点である。R2段階における上位モデルの平均スコアは0.69点、下位モデルの平均は0.735点でその差は小さいが、R3に入ると上位平均は1.11点、下位はわずか0.52点となり、差が急速に拡大する。

文心一言 4.5とGemini 3.1 Proはともに64.84点で並んでいるが、文心一言 4.5のR3は1.16点でGemini 3.1 Proの0.97点を上回っており、同一の総合スコアでも耐圧能力に差異があることを示している。豆包 ProはR2で0.72点を記録し、多く<|eos|>


データ出典:Winzheng YZ Index WDCDランキング | Run #169 · 総合ランキング | 評価方法論