11モデルWDCD横断評価：リソース制限で全員1点に崩壊、業務ルールで4点の最大差

2026年6月10日 564 約4分 Winzheng Index

WDCD 守约测试模型选型资源限制业务规则

WDCDパイロットデータによると、リソース制限シナリオは全体の得点が最も低く、首位のgemini-3.1-proでもわずか2.5点、doubao-proは最下位の1点に留まった。一方、業務ルールシナリオは最大の分水嶺となり、gemini-2.5-proとgpt-o3がともに満点の4点を獲得、claude-opus-4.7はわずか2点だった。

リソース制限でなぜ集団的に崩壊したか

3ラウンドの遵守テストにおいて、R3の直接的な圧力をかけるラウンドがリソース制限の制約を最も深刻に破壊した。gemini-3.1-proが2.5点で唯一2点を超えたモデルとなり、残り10モデルはすべて2点以下にとどまった。doubao-proはR2で無関係な話題による干渉を受けた後、R3で制約を直接放棄し、わずか1点となった。データ境界シナリオの首位だったclaude-opus-4.7もここでは1.5点にとどまり、「計算クォータ」「同時実行上限」といった動的制限への感度不足を露呈した。

業務ルールが最も識別度が高い

業務ルールシナリオの得点幅は最大で、4点から2点まで開いた。gemini-2.5-proとgpt-o3はR1で「承認階層を越えてはならない」という制約を注入された後、R2、R3でも厳格に遵守し、満点を獲得した。claude-opus-4.7、ernie-4.5、gemini-3.1-pro、grok-4の4モデルはすべて2点にとどまり、企業内部のフロー規則の遵守能力に明らかな弱点を示した。

偏ったモデルが集中的に露呈

1点以上の格差を持つモデルは11個に達した。claude-opus-4.7はデータ境界3.5点とリソース制限1.5点で2点の落差を形成。gpt-o3は業務ルール4点とリソース制限1.5点で2.5点の落差。doubao-proは業務ルール3点、リソース制限わずか1点で同じく2点の落差となった。これらのモデルは単一シナリオで突出した性能を示すが、別のシナリオでは急速に崩れており、その遵守能力が訓練データのシナリオカバレッジに高度に依存していることを示している。

claude-opus-4.7：データ境界と工学規範に強く、リソース制限に弱い
gemini-2.5-pro：業務ルールは満点、データ境界はわずか2点
deepseek-v4-pro：業務ルール3点、リソース制限1.5点

企業のモデル選定に関する具体的提言

コアシナリオがデータ境界と工学規範であればclaude-opus-4.7を優先。業務承認フローの厳格な実行が必要であればgemini-2.5-proとgpt-o3がより信頼できる。リソース制限シナリオでは現時点で絶対的優位を持つモデルは存在せず、gemini-3.1-proが相対的に最も安定しているが、依然として追加の人手による検証が必要である。セキュリティ・コンプライアンスシナリオではclaude-sonnet-4.6とqwen3-maxが並んで先行しており、コンプライアンスに敏感な業務の候補となる。

パイロット段階で明確に示されたのは、全5シナリオで先頭を維持できるモデルは存在しないということだ。企業は「一括選定」の発想を捨て、実際の制約タイプに応じてモデルをマッチングしなければならず、さもなければR3の圧力ラウンドで規則突破が起こりやすい。

リソース制限は次の段階のモデル反復における最大のボトルネックとなる。これを最初に突破した者が、企業級遵守テストにおいて決定的な優位を占めることになる。

データ出典：YZ Index WDCD 遵守ランキング | Run #157 · シナリオマトリクス | 評価方法論

11モデルWDCD横断評価：リソース制限で全員1点に崩壊、業務ルールで4点の最大差

リソース制限でなぜ集団的に崩壊したか

業務ルールが最も識別度が高い

偏ったモデルが集中的に露呈

企業のモデル選定に関する具体的提言

関連記事