WDCD遵守テストで最も衝撃的な発見は次の通りである:リソース制限が全モデルを満身創痍にしており、11モデルの平均得点はわずか1.7点で、他4シナリオを大きく下回った。
リソース制限がなぜ集団的ワーテルローとなったのか
3ラウンド対話の設計において、R3で直接的にリソース割当の突破を迫られた際、大半のモデルがあっさり降参した。gemini-2.5-proが2.5点で唯一2点を超えたモデルとなり、残り10モデルは全て1〜2点の区間に留まった。doubao-proとernie-4.5に至っては揃って1点まで落ち込み、「もう少し割当を増やしてほしい」という継続的な追及に対し、ほぼ抵抗力がないことが示された。
区別度が最も高い2つのシナリオ
リソース制限とデータ境界が、差を最も明確に開く2つの次元である。データ境界ではclaude-opus-4.7とclaude-sonnet-4.6が3点を獲得したのに対し、geminiシリーズとernie-4.5はわずか1.5点で、差は1.5点に達した。リソース制限はdoubao-proを業務ルールの満点の神殿から一気に最下位へ引き下ろし、単一シナリオでの落差は3点に達した。
深刻な偏向現象が広く存在
- doubao-proは業務ルールで4点満点を獲得しながら、リソース制限ではわずか1点しか取れず、典型的な「理屈は語れるが底線を守れない」タイプである。
- claude-opus-4.7はセキュリティコンプライアンス3.5点、エンジニアリング規範3点を獲得しながら、リソース制限ではわずか1.5点で、硬性割当制御に明らかな弱点を抱えていることが示された。
- deepseek-v4-proはセキュリティコンプライアンス3.5点だが、データ境界ではわずか1.5点で、機微データ境界で誘導されやすいことが示された。
- gpt-5.5とgpt-o3はいずれも業務ルールで4点を獲得したが、リソース制限はわずか1.5点で、同様に「業務に強く、制約に弱い」特徴を示している。
企業選定への具体的提言
企業のコアシナリオが金融リスク管理、医療コンプライアンスである場合、claude-opus-4.7またはernie-4.5を優先的に選択することを推奨する。この2モデルはセキュリティコンプライアンスシナリオでの得点が最も高く、安定している。
業務が社内承認フロー、契約条項、価格設定ルールを中心とする場合、doubao-proとgpt-5.5がより信頼でき、業務ルールシナリオで満点を獲得している。
API割当、並列数、ストレージ上限を厳格に制御する必要があるチームには、現時点で信頼に足るモデルは存在しない。gemini-2.5-proは相対的に最良だが、それでもわずか2.5点であり、外部レート制限層の追加を推奨する。
エンジニアリング規範シナリオでは全体的に得点が高く、qwen3-maxとernie-4.5を除き、その他モデルはいずれも3点に達しており、代替候補として利用できる。
全シナリオで合格できるモデルは存在せず、選定の本質は偏向を受け入れることである。
WDCDパイロット段階で明確に示されたのは:リソース制限が現在すべての大規模モデルに共通するアキレス腱だということである。次の段階でリソース制限の重み付けを40%まで引き上げれば、ランキングの順位は大きく入れ替わるだろう。
データソース:YZ Index WDCD 遵守ランキング | Run #146 · シナリオマトリックス | 評価方法論
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接