Qwen3 Max が70.83点で WDCD 遵守ランキング首位、Grok4 は51.67点で最下位

WDCD 遵守テスト第1ラウンドの公開ランキングは、「パラメータが大きいほど信頼できる」という神話を直接打ち破った。Qwen3 Max が70.83点で首位を獲得し、Grok4 が51.67点で最下位となり、R3段階での平均違反率は60.6%に達し、ほとんどのモデルが実際の企業制約下で依然として極めて容易に違反することが証明された。

ランキング構図:R3が唯一の分水嶺に

11モデルのうち、R1のスコアは概ね1.00または0.83以上、R2も多くが0.90以上で、本当に差をつけるのはR3だ。Qwen3 Max は R3で0.83/2を獲得、Claude Sonnet 4.6 と Gemini 3.1 Pro がそれぞれ0.70と0.77で続く。一方の Grok4 は R3でわずか0.17/2にとどまり、総合点を最下位まで引き下げた。

この分布は、現在の大規模モデルが「制約注入」および「無関係な話題による干渉」段階では表面的な遵守を学習済みであり、真に試されるのは第3ラウンドで直接圧力をかけられた際の最終ラインであることを示している。R3の重み付けは総得点の50%を占めており、高圧下で崩れない者がランキング上半分を占めることになる。

首位分析:Qwen3 Max の0.83点はどこから来たのか

Qwen3 Max は5種類の制約シナリオすべてで R1 と R2 を通過し、R3 でわずか0.17点を失っただけだ。特に「セキュリティコンプライアンス」と「データ境界」の2つの高リスクシナリオでは、モデルはユーザーによる元のルール変更要求を継続的に拒否し、出力の一貫性を維持した。対照的に、GPT-o3 は R1、R2 で同様に満点だったものの、R3 では0.63点しか取れず、エンジニアリング規範系制約下での脆弱性を露呈した。

満点率はわずか21.2%、つまり3ラウンドのテストでゼロ違反を達成できたモデルは4分の1にも満たない。

最下位モデル:Grok4 の0.17点が示すもの

Grok4 は R1、R2 段階ではまずまずの成績だったが、R3 ではほぼ全面的に崩壊した。典型例は「リソース制限」シナリオで、ユーザーが「緊急業務ニーズ」を理由にクォータの突破を要求したところ、モデルは第2ラウンドの追問後に直接同意してしまった。同じ状況下で Qwen3 Max と Claude Sonnet 4.6 はいずれも拒否を貫いており、システムプロンプトの持続性に明らかな世代差があることを示している。

トップ集団と最下位集団の差:小数点ではなく、シナリオレベルの断層

WDCD 上位4モデルのスコアはいずれも65点以上、下位4モデルは60点以下に落ち込んでいる。差は均等に分布しているのではなく、「業務ルール」と「エンジニアリング規範」という実企業で高頻度に発生する2種類のシナリオに集中している。豆包 Pro と 文心一言4.5 は今回それぞれ11.7点、10.0点伸ばしたものの、R3 は依然として0.63と0.47の区間にとどまり、トップとの差はなお0.5点ある。

  • トップモデルの R3 平均は0.73、下位はわずか0.38
  • セキュリティコンプライアンスシナリオでの違反回数は、下位がトップの2.8倍
  • 連続2ラウンドの干渉後も遵守できたモデルは、評価対象全体のわずか36%

これは、企業がモデルを実際のワークフローに組み込んだ場合、下位モデルは高圧や利益誘導の下で既定の境界を突破する可能性が高く、コンプライアンスリスクをもたらすことを意味する。

前回との比較が示す暗黙のシグナル

Gemini 3.1 Pro は今回14.2点急上昇、主に R3 の向上による。Claude Opus 4.7 も6.7点進歩しており、Anthropic と Google がシステムレベルの制約持続性で継続的に改良を進めていることを示している。一方 Grok4 は今回明確な進歩が見られず、R3 は依然として低位にとどまっており、「直接圧力」系の攻撃に対する防御機構がまだ有効にアップグレードされていないことを示している。

パイロット段階はメインランキングには算入されないが、次世代モデルの必争点を明確に示している。すなわち、多ラウンド対話後も初期制約を交渉可能な提案ではなく、違反不可能な硬規則として扱えるかどうかである。

遵守能力はもはや付加価値ではなく、モデルが本当に企業の生産環境に入れるかどうかの中核的なハードルとなっている。


データ出典:YZ Index WDCD 遵守ランキング | Run #140 · 総合ランキング | 評価方法論