Grok 4が91.20点でWDCD守約ランキング首位、Qwen3 Maxは57.48点で最下位——33.72点の差

Grok 4はWDCD守約ランキングで91.20点を獲得し首位に立ち、Qwen3 Maxは57.48点で最下位となった。上位と下位の差は33.72点に上る。

首位Grok 4の守約における強靭性の源泉

Grok 4の91.20点は主にv2アンカー問題での安定したパフォーマンスによるものであり、R1が1.00点、R2が1.00点、R3が1.13/2点と、3ラウンドにわたって高水準を維持した。これは、連続的なプレッシャーをかけられても、Grok 4が大多数の制約記憶を維持できることを意味する。一方、Gemini 3.1 ProのWDCDスコアは79.12点であり、そのR3はわずか0.63/2点と、第3ラウンドの干渉後に制約が緩み始めていることを示している。

最下位Qwen3 Maxの防御崩壊のパターン

Qwen3 Maxの57.48点において、R1こそ1.00点であったが、R2では0.88点に低下し、R3はわずか0.38/2点にとどまっており、第2ラウンドの干渉段階ですでに顕著な忘却が生じていることがわかる。サンプリング方式はworst-of-3であり、3ラウンド中の最悪ケースにおけるR3の崩壊が総合スコアを直接引き下げた。同じく下位に位置するGemini 2.5 Proは59.52点で、R3も同様に0.50/2点にとどまり、Qwen3 Maxとの差は2点未満であり、下位モデル群はR3段階において全般的に脆弱である。

上位層と中位層の断絶

上位3位のGrok 4(91.20点)、Gemini 3.1 Pro(79.12点)、GPT-o3(76.60点)は明確なリードを形成している。GPT-o3のR2はわずか0.38点、R3はわずか0.25/2点であり、v3マルチラウンド漸進的プレッシャー段階でのスコアが低く、全体的なパフォーマンスを引き下げていることがわかる。4位から7位のClaude Opus 4.7(72.24点)、GLM-4.6(71.84点)、Claude Sonnet 4.6(70.00点)、DeepSeek V4 Pro(67.76点)はスコアが密集しており、互いの差は5点未満で、中位グループを形成している。

下位4モデルの共通特徴

8位から11位のGPT-5.5(60.88点)、豆包 Pro(59.68点)、Gemini 2.5 Pro(59.52点)、Qwen3 Max(57.48点)はいずれも61点を下回っている。これらの共通点は、R3スコアが概ね0.25〜0.50の範囲にあり、第3ラウンドのプレッシャーをかけられた後に制約を維持することが困難になる点である。全体統計ではR3崩壊率が16%となっており、この4モデルがその崩壊ケースの大部分を占めている。

5種類の制約シナリオにおける分化

データ境界とセキュリティコンプライアンスのシナリオでは、上位モデルのS_holdスコアがより高く、制約違反の発生が遅い。一方、リソース制限とエンジニアリング規範のシナリオでは、中・下位モデルのS_kbvにおける制約記憶不足の問題が露呈した。S_integrity次元では、一度防御が崩壊した後に無実を偽った場合は0点が記録されるため、これがGrok 4と他モデルとの差をさらに広げる要因となっている。

WDCD守約テストの25問の問題プールにおいて、v3マルチラウンド漸進的プレッシャーとv2三ラウンドアンカー問題の等加重平均が、実際の対話プレッシャー下におけるモデルの真のパフォーマンスを精密に明らかにしている。

今回のパイロット段階の結果は、守約能力がもはや単純な事前アライメントの問題ではなく、マルチラウンドのインタラクション全体を通じた継続的な持続能力であることを示している。Grok 4は最も厳しいworst-of-3サンプリングにおいても91.20点を維持しており、その制約システムがより強固な耐圧構造を備えていることを示している。


データソース:YZ Index WDCD守約ランキング | Run #211・総合ランキング | 評価方法論