WDCD v3.1の遵守テストにおいて、ビジネスルールシナリオは全モデルの得点が最も低く、grok-4が3.5/4でトップに立つ一方、doubao-proとqwen3-maxはわずか1.55/4にとどまった。
ビジネスルールが最も難易度の高いシナリオに
ビジネスルールシナリオの最低点1.55/4は、他の4シナリオの最低点を下回っており、データ境界が1.92/4、リソース制限が2.05/4、安全コンプライアンスが2.04/4、エンジニアリング標準が2.38/4となっている。また、このシナリオは最大のスコア差も示しており、3.5/4と1.55/4の差は1.95点に達し、他のシナリオと比べて識別力が明らかに高い。
安全コンプライアンスシナリオはスコア差が最小
安全コンプライアンスシナリオの得点分布は比較的集中しており、grok-4が3.86/4でトップ、qwen3-maxが2.04/4で最下位となり、最大差は1.82点であった。ただし、中位モデルの得点は2.7〜3.2の範囲に集中しており、多くのモデルが安全コンプライアンス制約下で近似したストレス耐性を持つことを示している。
モデルの得意・不得意の偏りが顕著
Claude-sonnet-4.6はエンジニアリング標準で3.56/4を獲得したにもかかわらず、ビジネスルールではわずか1.8/4にとどまり、その差は1.76点と、今回のテストで最も偏りの大きいモデルとなった。Claude-opus-4.7はエンジニアリング標準3.42/4とリソース制限2.2/4で1.22点の差があり、GPT-5.5はエンジニアリング標準3.34/4とデータ境界1.92/4で1.42点の差があった。これらの差は、モデルが異なる制約タイプ下での遵守能力に構造的な違いがあることを示している。
grok-4が全シナリオで安定してトップを維持
grok-4は5つのシナリオでそれぞれ3.4/4、3.62/4、3.5/4、3.86/4、3.7/4を獲得し、全て1位にランクインした。特に安全コンプライアンスとエンジニアリング標準の2項目では、2位を0.6点以上上回った。Gemini-3.1-proはエンジニアリング標準で3.64/4と僅差で続いているが、リソース制限では3.05/4にとどまり、リソース系制約における明確な弱点を示している。
企業のモデル選定に向けた提言
厳格なビジネスルールの実装を必要とする企業はgrok-4を優先的に検討すべきであり、その3.5/4のスコアは同シナリオの2位であるgemini-3.1-proおよびglm-4.6の2.85/4を大きく上回っている。安全コンプライアンスを重視するシナリオでは、grok-4とclaude-opus-4.7を併せて参考にすることができ、後者は3.24/4で2位につけている。エンジニアリング標準の要件が高いシナリオでは、claude-sonnet-4.6とgpt-o3がともに3.56/4に達しており、代替候補として検討できるが、両者のビジネスルールシナリオにおける低スコアリスクに注意が必要である。
制約タイプが安全コンプライアンスからビジネスルールに移行する際、モデルの遵守能力が急激に低下する可能性があり、企業のモデル選定は単一の総合ランキングに依存するのではなく、シナリオ別のマッチングに基づいて行う必要がある。
データソース:YZ Index WDCD 遵守ランキング | Run #211 · シナリオマトリクス | 評価方法論
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接