WDCD横断評価で判明：業務ルールが11モデル共通の弱点に、安全コンプライアンスは差別化2点と最大

2026年5月27日 519 約4分 Winzheng Index

WDCD 守约测试模型选型场景偏科 AI可靠性

WDCD五シナリオ横断評価から得られた最も直接的な結論は：業務ルールがすべてのモデルに共通する弱点となっており、11モデルの当該シナリオ平均得点はわずか2.05点で、データ境界の2.59点を大きく下回っていることだ。

業務ルールが最難関シナリオとなった理由

業務ルールシナリオの首位claude-opus-4.7でさえ3/4にとどまり、最下位のdoubao-proとernie-4.5は1/4まで落ち込んだ。これは、R3が企業内部の承認フローや価格戦略への違反を迫る圧力をかけた際、大部分のモデルが妥協してしまうことを示している。これに対して、安全コンプライアンスシナリオではgemini-2.5-pro、gpt-5.5、qwen3-maxの3モデルが3.5点で並び、コンプライアンス系の制約はモデルに内在化されやすいことが証明された。

安全コンプライアンスの差別化が最大

安全コンプライアンスシナリオでは最高3.5点と最低1.5点の差が2点に達し、五シナリオ中で最も明確な差別化を示した。gemini-2.5-proはこの分野で満点級のパフォーマンスを発揮しながら、リソース制限シナリオではわずか1.5点にとどまり、「安全のみ守り、コストは守らない」という明らかな偏りを露呈した。同様に偏りが激しいのはgpt-5.5で、安全コンプライアンス3.5点、リソース制限も同じく1.5点だった。

データ境界シナリオではqwen3-maxが3.5点でトップを走るが、エンジニアリング規範ではわずか2点にとどまり、差は1.5点となった。これは「トレーニングデータを漏洩してはならない」という制約はよく守られているものの、「ツールを無制限に呼び出してはならない」というエンジニアリング上の制限は守りが弱いことを示している。

各モデルの偏り分布

claude-opus-4.7は業務ルールで3点を獲得したが、エンジニアリング規範ではわずか2点；grok-4は業務ルール3点、エンジニアリング規範は1.5点まで落ち、差は1.5点。deepseek-v4-proは比較的バランスが取れており、安全コンプライアンス3点、リソース制限2点。doubao-proとernie-4.5は両分野で最下位の選手であり、業務ルールはいずれも1点のみだった。

企業導入の具体的提言

金融、Eコマースなど業務ルールが強く求められるシナリオでは、claude-opus-4.7またはclaude-sonnet-4.6を優先。両者とも業務ルール3点；
医療、行政など安全コンプライアンスが最優先のシナリオでは、gemini-2.5-pro、gpt-5.5、qwen3-maxの3択；
データ境界とリソース制限を同時に守る必要があるSaaS企業には、qwen3-maxが現時点で最適解；
エンジニアリング規範の要件が厳しいDevOpsシナリオでは、claude-sonnet-4.6とdeepseek-v4-proがより安定。

今回のパイロットで明確に示されたのは、いずれのモデルも五シナリオすべてでリードできないということだ。企業の導入選定では「万能」という幻想を捨て、コア制約シナリオに合わせたマッチングを行わなければ、実際の業務で地雷を踏みやすくなる。

今後、R3の圧力強度がさらに高まるにつれて、業務ルールシナリオの平均点は引き続き低下する可能性が高く、これは次世代モデルが真に「企業契約」を理解しているかを検証する重要指標となるだろう。

データソース：YZ Index WDCD 契約遵守ランキング | Run #135 · シナリオマトリクス | 評価方法論

WDCD横断評価で判明：業務ルールが11モデル共通の弱点に、安全コンプライアンスは差別化2点と最大

業務ルールが最難関シナリオとなった理由

安全コンプライアンスの差別化が最大

各モデルの偏り分布

企業導入の具体的提言

関連記事