WDCD横断比較で判明:リソース制限が11モデル最大の弱点、平均わずか1.7点
WDCD遵守テストにおいて、リソース制限のシナリオが全モデルを苦戦させ、11モデルの平均得点はわずか1.7点と、他4シナリオを大きく下回った。本記事では各モデルの偏向特性と企業選定への具体的提言を分析する。
WDCD遵守テストにおいて、リソース制限のシナリオが全モデルを苦戦させ、11モデルの平均得点はわずか1.7点と、他4シナリオを大きく下回った。本記事では各モデルの偏向特性と企業選定への具体的提言を分析する。
WDCD五大シーン横断評価において、リソース制限シーンは全モデルが最低スコアとなり、首位のClaude Opus 4.7でさえ2.67点にとどまった。一方、業務ルールシーンではDoubaoProが3.5点でトップに立ち、GPT-5.5を上回
YZ IndexのWDCD(Winzheng Dynamic Contextual Decay)遵守テストにおいて、11の主流AIモデルを五大シーンで深層的に横断評価した。リソース制限シーンが全体で最低スコア(平均1.86点)、安全コンプラ
WDCD Run#105のデータは、総合スコア1位のモデルが必ずしも全シナリオで最適とは限らないことを示している。企業のモデル選定では、自社の最重要リスクシナリオにおける制約遵守能力こそが評価軸となるべきだ。
WDCDのパイロットデータが公開され、30問・11モデル・5大シナリオのクロスマトリクスから反直感的な結論が導き出された。すべてのシナリオで約束を守れたモデルは1つもなく、最も単純に見える「リソース制限」シナリオで全員が撃沈し、首位のgro
AIモデルの能力が同質化する中、「言ったことを実行する」遵約能力が次のコア指標として浮上しており、企業のモデル選定ロジックを再構築している。Winzheng(winzheng.com)のYZ Index WDCDは、世界初の体系的な遵約テス