场景横评に関するニュース

WDCD 5大シナリオ横断評価：業務ルールが最難関に、ClaudeとDoubaoの偏科差は2点に達する

WDCD遵守テストの試験運用データによると、業務ルールシナリオは全モデル共通の弱点となり最高得点はわずか2.5点、一方で安全コンプライアンスシナリオはモデル間の格差を最大に広げる結果となりました。

WDCD 守约测试场景横评 AI模型选型

2026年5月20日 336

WDCD五大シーン横断評価：リソース制限が最難関、11モデルの偏り格差は2点に達する、企業の真の選択肢は誰か？

YZ IndexのWDCD（Winzheng Dynamic Contextual Decay）遵守テストにおいて、11の主流AIモデルを五大シーンで深層的に横断評価した。リソース制限シーンが全体で最低スコア（平均1.86点）、安全コンプラ

WDCD 守约测试 AI模型评测企业选型

2026年5月13日 395

5大シナリオの照妖鏡：リソース制限で全員撃沈、最高スコアはわずか2.17

WDCDのパイロットデータが公開され、30問・11モデル・5大シナリオのクロスマトリクスから反直感的な結論が導き出された。すべてのシナリオで約束を守れたモデルは1つもなく、最も単純に見える「リソース制限」シナリオで全員が撃沈し、首位のgro

WDCD 守约测试场景横评企业选型

2026年5月3日 509