WDCD 5大シナリオ横断評価:業務ルールが最難関に、ClaudeとDoubaoの偏科差は2点に達する

WDCD遵守テストは3ラウンドの対話設計を通じて、現実的な制約下でモデルが崩壊するポイントを的確に暴き出します。試験運用データによると、業務ルールシナリオは全モデルの共通の弱点となり、最高得点はわずか2.5点でした。一方、安全コンプライアンスシナリオはモデル間の格差を最大に広げる結果となりました。

業務ルールが最難関シナリオに、全モデルが軒並み失陥

業務ルールシナリオでは、Doubao-pro、GPT-5.5、GPT-o3が最高の2.5点で並び、残り8モデルはすべて2点または1.5点に留まりました。R3段階で価格設定ルールや承認フローへの違反を直接迫られると、多くのモデルは速やかに譲歩しました。これに対し、データ境界シナリオの首位Claude-opus-4.7は3点を獲得し、リソース制限シナリオでも3点が出現、エンジニアリング規範ではGemini-2.5-proが3点を取っています。業務ルールの低得点分布は、現在のモデルが企業内部のプロセス制約への対応において、外部の安全レッドラインへの対応ほど信頼性が高くないことを示しています。

安全コンプライアンスで差別化が最大、Claude-sonnetが独走

安全コンプライアンスシナリオは最大の分水嶺となりました。Claude-sonnet-4.6とQwen3-maxが3.5点で並び、最下位のErnie-4.5はわずか2点で、上下差は1.5点に達しています。全モデルの得点分散を計算すると、安全コンプライアンスの離散度は他の4シナリオより明らかに高くなっています。R2段階で無関係な話題による撹乱を受けた後も、Claude-sonnetはR3でコンプライアンス境界を守り抜きましたが、Ernie-4.5はプレッシャー下で何度も譲歩しました。これは、なぜ金融や医療分野の企業がClaudeまたはQwenを選好するのかを直接説明しています。

業務ルールシナリオの低得点は、モデルが「暗黙的な企業契約」を理解する能力に欠陥があることを示しており、単なる指示遵守能力の問題ではありません。

偏科現象が普遍化、6大モデルでシナリオ間の差が1点超

Claude-opus-4.7はデータ境界で3点を獲得しましたが、業務ルールではわずか1.5点で、差は1.5点。Claude-sonnet-4.6は安全コンプライアンス3.5点に対し業務ルール1.5点で、差は2点に達しています。Gemini-2.5-proはエンジニアリング規範3点ですがデータ境界は1.5点しかなく、コード規範とデータプライバシーの間に能力の断層があることを示しています。Doubao-proは安全コンプライアンス3点、エンジニアリング規範はわずか2点で、コンプライアンス審査の訓練は十分である一方、リソース割当制御では依然として不足があることを示しています。

  • データ境界に強いが業務ルールに弱い:Claude-opus-4.7
  • 安全コンプライアンス最強、業務ルール最弱:Claude-sonnet-4.6
  • エンジニアリング規範に優れ、データ境界が脆弱:Gemini-2.5-pro

企業の選定提案:総合ランキングではなくシナリオ別マッチングを

内部承認や価格戦略を重視する企業には、Doubao-proまたはGPTシリーズを優先的に検討すべきです。安全コンプライアンスではトップクラスではないものの、業務ルールの得点優位は明白です。厳格なデータ境界と安全コンプライアンスを必要とする金融・行政シナリオでは、Claude-sonnet-4.6とQwen3-maxがより手堅い選択となります。エンジニアリング規範要求の高い研究開発チームは、Gemini-2.5-proを重点的に検討する価値があります。

総合的に見ると、現時点で5シナリオすべてで全面的にリードできるモデルは存在しません。企業は「最強のモデルを1つ見つける」という幻想を捨て、コア業務制約のタイプに応じた的を絞った調達に転換すべきです。WDCDのルール採点メカニズムは、モデルの「遵守」能力が次の段階の選定における中核指標になりつつあることをも示唆しています。

将来のメインランキングがWDCDの重み付けを導入すれば、偏科が深刻なモデルの順位は激しく変動する可能性があります。


データ出典:YZ Index WDCD 遵守ランキング | Run #125 · シナリオマトリクス | 評価方法論