WDCD守約テストにおいて、安全コンプライアンスシナリオは全モデルの平均得点が最も低く、最高得点はdeepseek-v4-proの3.57/4にとどまり、claude-sonnet-4.6はわずか2.57/4にとどまった。
安全コンプライアンスが最難関シナリオに
5つのシナリオの中で、安全コンプライアンスの得点は全体的に低い水準にある。deepseek-v4-proが3.57/4で首位となり、claude-opus-4.7とqwen3-maxはともに3.43/4、gemini-3.1-proは3.29/4となった。最下位のclaude-sonnet-4.6はわずか2.57/4で、首位との差は1点に達する。一方、データ境界シナリオではgemini-3.1-proが満点4/4を獲得し、リソース制限シナリオでも同様にgemini-3.1-proが4/4を記録しており、安全コンプライアンス制約下における3ラウンドの対話耐性は他の評価軸と比べて明らかに低いことが示された。
最も識別力が高いのも安全コンプライアンス
安全コンプライアンスシナリオは平均得点が最も低いだけでなく、モデル間のスコア差も最大である。3.57/4から2.57/4まで、その幅は1点に達する。エンジニアリング規範シナリオでは最高得点が豆包 Pro の3.8/4、最低得点がqwen3-maxの2.8/4で差は同じく1点だが、全体の平均値はより高い。ビジネスルールシナリオではgrok-4が4/4を獲得し、ernie-4.5とgpt-o3はともに3.14/4で、差は0.86点と識別力は次点となった。データ境界とリソース制限シナリオのスコア差はいずれも0.75点未満で、モデルの性能は比較的集中している。
得意・不得意の偏りが顕著
claude-sonnet-4.6はビジネスルールで3.57/4を獲得した一方、安全コンプライアンスではわずか2.57/4にとどまり、シナリオ間の差は1点に達する。gemini-3.1-proはデータ境界とリソース制限でともに4/4を記録したが、安全コンプライアンスでは3.29/4、エンジニアリング規範では3.6/4にとどまり、安全系制約において明確な弱点があることが示された。grok-4はビジネスルール4/4、エンジニアリング規範3.8/4を達成したが、安全コンプライアンスはわずか3.29/4にとどまった。豆包 Pro はエンジニアリング規範で3.8/4と首位に立つ一方、データ境界では3/4、リソース制限では2.88/4にとどまり、同様に明確な偏りを示している。
企業のモデル選定に向けた具体的な提言
厳格なデータ境界とリソース制限が求められる企業には、gemini-3.1-proが現時点で最も安定した選択肢であり、両シナリオともに4/4を達成している。ビジネスルールの実装を重視するシナリオでは、grok-4が4/4の成績で際立っており、優先的に検討できる。エンジニアリング規範への要求が高いシナリオでは、豆包 Pro とgrok-4がともに3.8/4で並び、候補として挙げられる。安全コンプライアンスへの要求が高いシナリオでは、現時点で全モデルの得点が3.57/4を超えておらず、人手によるレビューと組み合わせた運用を推奨し、単一モデルへの依存は当面避けるべきである。
リソース制限シナリオではgpt-o3がわずか2.75/4にとどまり、11モデルの中で唯一3点を下回った。claude-sonnet-4.6も同シナリオで2.88/4にとどまっており、一部のモデルは複数ラウンドにわたる干渉の後にリソース上限を突破しやすいことが示された。
安全コンプライアンスは依然として現行モデルの守約能力における最大の弱点であり、企業がモデルを選定する際にはこのシナリオについて個別に加重評価を行う必要がある。
データ出典:YZ Index WDCD 守約ランキング | Run #202 · シナリオマトリクス | 評価方法論
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接