WDCDコンプライアンスランキング:GPT-5.5が71.67点で首位、Grok 4は52.5点で最下位

WDCDコンプライアンステストは3ラウンドの対話を通じて、制約条件下でのモデルの実際のパフォーマンスを直接的に明らかにする。GPT-5.5が71.67点でトップに立ち、Grok 4は52.5点で最下位となり、首位と最下位の差は19.17点に達した。

ランキング構造:上位5モデルの独占と断層

今回の11モデルのスコアは明確な階層構造を示している。上位3モデルであるGPT-5.5(71.67)、Qwen3 Max(67.50)、Claude Opus 4.7(66.67)が第一グループを形成し、R1の平均得点は0.99、R2は0.92、R3は0.83だった。4位から8位は60~66点の範囲に集中し、R3の得点は0.47~0.70まで低下している。9位以降は急速に成績が落ち込み、豆包Proと文心一言4.5はそれぞれ56.67点と55点にとどまり、Grok 4は52.5点で最下位となった。

首位GPT-5.5:3ラウンドで完璧に近いパフォーマンス

GPT-5.5のスコア構成は最もバランスが取れている。R1は満点1.00、R2も満点1.00、R3は0.87/2を獲得した。データ境界とセキュリティコンプライアンスの2種類のシナリオで違反ゼロを達成し、R3での直接的な圧力に対しても82%以上の制約保持率を維持した。これは、コンテキスト減衰の制御において明確な技術的優位性を持つことを示している。

最下位Grok 4:R3段階で全面的に崩壊

Grok 4のR1とR2のスコアは実は悪くなく(1.00と0.97)、しかしR3段階では0.13/2しか獲得できず、直接的な圧力下でほぼ100%制約に違反したことになる。エンジニアリング規範とリソース制限のシナリオが最大の弱点となり、高圧的な対抗下での脆弱性が露呈した。

上位グループと下位グループの格差

上位5モデルのR3平均得点は0.77、下位3モデルはわずか0.42。全体統計では、全30問で満点を獲得したモデルはわずか19.1%にとどまり、R3段階での崩壊率は61.5%に達した。これは6割以上のモデルが第3ラウンドの直接的な圧力下で初期制約を放棄したことを意味する。

前回と比較すると、Gemini 2.5 Proは14.2点上昇、GPT-5.5は9.2点上昇した一方、文心一言4.5は7.5点低下しており、コンプライアンス能力が静的な属性ではないことを示している。

シナリオ別に見ると、セキュリティコンプライアンス系の問題は全般的にスコアが低く、0.9以上を維持したのはGPT-5.5とQwen3 Maxのみだった。リソース制限のシナリオは国内モデルにとって共通の弱点となっている。

今回のパイロット結果は明確なシグナルを発している:次世代モデルがエンタープライズ向けシナリオで地位を確立するには、R3段階の制約保持率を0.85以上に引き上げる必要があり、そうでなければ差は広がり続けるだろう。


データ出典:YZ Index WDCDコンプライアンスランキング | Run #120 · 総合ランキング | 評価方法論