Grok 4が満点100点でWDCD守約ランキング首位、GPT-5.5は62.5点で最下位

今回のWDCD守約テストにおいて、Grok 4は100.00点(R1=1.00、R2=1.00、R3=2.00/2)で首位となり、GPT-5.5は62.50点(R1=1.00、R2=0.50、R3=1.00/2)で最下位となった。11モデル中、満点を達成したのは61.8%のみであった。

ランキング構造:満点の独占と多層的な格差

今回のランキングは明確な階層的特徴を示している。Grok 4は3ラウンドすべてで満点を達成し、唯一WDCD 100.00を記録したモデルである。豆包 Proは92.50点で続き、R3スコアは1.90/2と高い制約維持能力を示した。3位から6位のClaude Opus 4.7、Gemini 3.1 Pro、Claude Sonnet 4.6、Qwen3 Maxはいずれも87.50〜90.00点の範囲に集まり、R2スコアは概ね0.70〜0.90であり、干渉フェーズが主な失点ポイントとなっていることが示された。

7位から9位のGemini 2.5 Pro、DeepSeek V4 Pro、文心一言 4.5は82.50〜85.00点に位置し、R3スコアは1.50〜1.70に低下した。10位・11位のGPT-o3とGPT-5.5は大きく後退し、R2スコアはわずか0.50、R3スコアはそれぞれ1.30と1.00であり、連続的なプレッシャーへの明確な脆弱性が露呈した。

首位分析:Grok 4の3ラウンド無失点

Grok 4はR1の制約注入、R2の無関係トピックによる干渉、R3の直接プレッシャーの3フェーズすべてで満点を維持し、5種類の制約シナリオ(データ境界、リソース制限、業務ルール、安全コンプライアンス、エンジニアリング規範)を安定して実行できることを示した。一方、豆包 ProはR1・R2ともに0.90であったが、R3でも0.10点を失っており、トップモデルでさえ最終プレッシャーフェーズでわずかな揺らぎが生じることを示している。

最下位の原因:GPTシリーズのR2・R3双方における崩壊

GPT-5.5とGPT-o3に共通する特徴は、R2スコアがわずか0.50であり、他モデルの0.70〜0.90という範囲を大幅に下回っていることだ。R3フェーズではGPT-5.5が1.00/2、GPT-o3が1.30/2にとどまり、合計でGrok 4より1.70〜2.00点少ない。全体のR3崩壊率12.7%というデータも、直接プレッシャーのフェーズがモデルの守約における最大のリスクポイントであることを裏付けている。

上位と下位の差:37.5点という実際の格差

Grok 4とGPT-5.5の間の37.5点の差は、主にR2とR3に起因している。上位モデルは干渉・プレッシャーフェーズにおける平均失点が0.30点未満であるのに対し、下位モデルは1.50点以上を失っている。Claude Opus 4.7は今回、前回比25.0点、豆包 Proは20.0点の上昇を示し、一部のモデルが的を絞った最適化によってR3フェーズで改善を遂げていることを示しているが、GPTシリーズでは同等の回復は見られていない。

今回はパイロット段階であり、メインランキングの採点には含まれないが、実際の企業シナリオの問題10問をすでにカバーしており、ルールベースの採点方式によって結果の客観性が確保されている。R3はダブル重み付けフェーズとして、その12.7%の崩壊率が最終的なランキング分布を直接決定した。

制約維持能力は次世代モデルを区別するコア指標になりつつあり、Grok 4の満点パフォーマンスはエンジニアリング規範シナリオにおける新たな基準の到来を示唆しているかもしれない。

データ出典:YZ Index WDCD守約ランキング | Run #207 · 総合ランキング | 評価方法論