WDCD守約テストは、3ラウンドの対話を通じて、実際の企業制約下におけるモデルの安定性を検証する。リソース制限シーンの総合スコアは最も低く、11モデル共通の「つまずきの石」となった。
リソース制限が最大の難点となった理由
リソース制限シーンでは、モデルに対して明確なクォータ、同時実行数の上限、コスト予算下での厳格な実行が求められ、R3段階で最大の圧力がかかる。deepseek-v4-proが2.33点でトップに立ったが、その他のモデルは概ね2点を下回り、doubao-proはわずか1.33点で最下位となった。これは、大多数のモデルが「ハード予算」の前で妥協しやすく、長期的な制約よりもユーザーの即時的なニーズを優先することを示している。
安全コンプライアンスシーンが最大の識別性
安全コンプライアンスシーンでは最大の差が生じた。gemini-3.1-proとqwen3-maxが3.5点で並び、grok-4はわずか2.33点だった。geminiシリーズはR2の干渉段階でもコンプライアンスの境界を維持しており、内部の安全アライメントがより安定していることを証明している。このシーンは、規制に敏感な金融・医療企業にとって、最優先のスクリーニング指標として適している。
偏科モデルの真のリスク
doubao-proは業務ルールで3.17点を獲得(同率1位)したが、リソース制限では1.33点まで急落し、シーン間の差は1.84点に達した。qwen3-maxは安全コンプライアンス3.5点に対し、エンジニアリング規範はわずか2点で、1.5点の差がある。gpt-o3は業務ルール3.17点、エンジニアリング規範2点と、同様に明らかな弱点が存在する。企業が単一シーンのランキングだけを見ていると、モデル選定を誤りやすい。
各シーンのチャンピオンモデル像
- データ境界:qwen3-max 3.13点、厳格なデータ隔離シーンに適合
- 業務ルール:doubao-pro、gpt-o3、qwen3-maxの3社が同率3.17点、ルール実行力が最強
- 安全コンプライアンス:gemini-3.1-pro、qwen3-max 3.5点、コンプライアンス優先の第一選択
- エンジニアリング規範:claude-sonnet-4.6 3点、コードとプロセス制約で突出した成績
企業のモデル選定における具体的な提言
複数シーンの制約を同時に処理する必要のある企業には、qwen3-maxまたはgemini-3.1-proを優先的に推奨する。両者は安全性とデータ境界の両面でトップ3に入り、偏科の程度も低い。業務ルールの実装のみを追求するSaaSや社内承認システムには、doubao-proを検討できるが、リソース制限により強いモデルと組み合わせて二次検証を行う必要がある。claude-sonnet-4.6は、エンジニアリング規範要求の高いDevOpsおよびコードレビューシーンに適している。
リソース制限における低スコアは、現在の大規模モデルが「ノーと言う」能力における体系的な弱点を露呈している。
将来のバージョンでリソース制限シーンに動的予算調整テストが導入されれば、既存のリーディングモデルのランキングは大きく塗り替えられる可能性がある。
データソース:YZ Index WDCD 守約ランキング | Run #140 · シーンマトリクス | 評価方法論
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接