WDCD遵守ランキングで70点の三強が並びトップ、文心一言は50点で崩壊し最下位
WDCD遵守テストで11モデルのうち、Claude Opus 4.7、GPT-5.5、GPT-o3の3モデルが70点で並びトップとなり、文心一言4.5は50点で明らかな断層を見せ最下位となった。
WDCD遵守テストで11モデルのうち、Claude Opus 4.7、GPT-5.5、GPT-o3の3モデルが70点で並びトップとなり、文心一言4.5は50点で明らかな断層を見せ最下位となった。
WDCDはPrompt InjectionやJailbreakのような攻撃シミュレーションではなく、日常業務の中でユーザーが設定した制約をモデルが継続的に遵守できるかを測定するもので、Run #105の実測データは現行モデルの致命的な盲点を