11モデルWDCD横断評価:リソース制限で全員1点に崩壊、業務ルールで4点の最大差
WDCDパイロットデータによると、リソース制限シナリオでは全モデルの得点が最も低く、首位のgemini-3.1-proでもわずか2.5点にとどまった。一方、業務ルールシナリオでは最大の格差が生じ、gemini-2.5-proとgpt-o3が
WDCDパイロットデータによると、リソース制限シナリオでは全モデルの得点が最も低く、首位のgemini-3.1-proでもわずか2.5点にとどまった。一方、業務ルールシナリオでは最大の格差が生じ、gemini-2.5-proとgpt-o3が
WDCD三段階テストの結果、モデルは初期段階でほぼ全員が高得点を獲得したものの、二度の干渉を経た後、6割以上のモデルが直接的な圧力下で当初の約束を完全に放棄した。
WDCD守約テストでは11モデルがリソース制限シーンで軒並み低スコアを記録し、平均1.95点に留まった。安全コンプライアンスシーンでは最大の差が現れ、企業選定における偏科モデルのリスクが浮き彫りとなった。
WDCD五大シーン横断評価において、リソース制限シーンは全モデルが最低スコアとなり、首位のClaude Opus 4.7でさえ2.67点にとどまった。一方、業務ルールシーンではDoubaoProが3.5点でトップに立ち、GPT-5.5を上回
WDCD Run #105の実測データによると、リソース制限類のシナリオはすべてのモデルが最も不安定なパフォーマンスを示す領域の一つであり、安全規約類のシナリオよりも失敗率が高いことが明らかになった。明確な数値制約であっても、業務プレッシャ