WDCD に関するニュース

R3誠実率わずか50.7%：11モデル・三段階アンカーポイントにおける約束崩壊の真相

WDCD v3.1パイロットテストにおいて、11のAIモデルを対象に三段階のアンカーポイント評価を実施した結果、R1平均確認率0.99に対しR3平均誠実率は50.7%にとどまり、28回のゼロ点事例が発生した。この結果は、モデルが「約束を立て

WDCD 守约测试三轮衰减约束记忆

2026年7月12日 173

Grok 4が91.40点でWDCD守約ランキング首位、Qwen3 Maxが64.88点で最下位

WDCD v3.1テストにおいて、Grok 4が91.40点でトップに立ち、Qwen3 Maxが64.88点で最下位となった。上位4モデルと下位モデルの間には明確な格差が生じている。

WDCD 守约测试 AI模型评估约束遵守能力

2026年7月12日 169

WDCD Run #221：平均命令遵守崩壊率が-36.4%に達し、Grok 4が11モデル中首位に

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #221において、11モデルの平均命令遵守崩壊率が-36.4%に達した。Grok 4が95点でトップとなる一方、命令崩壊がトップクラスのシス

2026年7月8日 235

WDCD v3.1：DeepSeek V4 Proが26.2点上昇、Claude Sonnet 4.6は5.9点下落

最新のWDCD v3.1評価において、Grok 4が95.00点で首位を維持する一方、DeepSeek V4 Proが26.2点の大幅上昇で94.00点に達し、GLM-4.6も21.8点上昇して93.60点を記録。唯一の下落モデルはClau

WDCD 守约测试模型评估生产接入

2026年7月8日 298

WDCD v3.1 五大シナリオ横断評価：業務ルールが1.3点で最下位、11モデルの得意不得意の差が2.1点

WDCD v3.1パイロット評価において、業務ルールシナリオが全シナリオ中最低得点となり、最下位のqwen3-maxはわずか1.3/4を記録した。また、doubao-proをはじめとする複数モデルでシナリオ間の得点差が最大2.1点に達する「

WDCD 守约测试业务规则场景数据边界

2026年7月8日 296

R3誠実率わずか61.4%：Claude Sonnet 4.6の崩壊率20%が三ラウンド衰退断層を露呈

8問のv2アンカー問題に対するworst-of-3サンプリングにおいて、11モデルのR3平均誠実率はわずか61.4%にとどまり、Claude Sonnet 4.6はR3崩壊率20%という最も深刻な衰退を示した。このデータは、現行主流モデルが

WDCD 守约测试模型衰减三轮施压

2026年7月8日 242

WDCD横断評価：ビジネスルールシナリオで最低1.55点、grok-4が安全コンプライアンスで3.86点トップ

WDCD v3.1の遵守テストにおいて、ビジネスルールシナリオが全シナリオ中で最も低い得点を記録し、grok-4が全シナリオで安定してトップを維持した。企業のモデル選定にあたっては、総合ランキングではなくシナリオ別のマッチングが重要であるこ

WDCD 守约测试业务规则安全合规

2026年7月3日 316

WDCD 守约测试 v3.1约束衰减 GPT-o3崩溃

R3誠実率わずか30.2%：11モデル・3ラウンドアンカー問題で44回の完全崩壊

YZ IndexのWDCD評価において、8問のv2アンカー問題に対する275回のサンプリングでR1平均確認率は0.99に達したが、R3誠実率はわずか30.2%にとどまり、44回の完全崩壊（0点）が発生した。本記事はラウンドが進むにつれてモデ

2026年7月3日 317

Grok 4が91.20点でWDCD守約ランキング首位、Qwen3 Maxは57.48点で最下位——33.72点の差

WDCD守約ランキングにおいて、Grok 4が91.20点で首位を獲得し、Qwen3 Maxが57.48点で最下位となり、上位と下位の差は33.72点に達した。

WDCD 守约测试模型守约能力 Grok 4

2026年7月3日 546

WDCD Run #211：Grok 4が-13%のインストラクション劣化で首位、GPT-o3は-75%で崩壊

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #211では、11モデルを評価した結果、Grok 4が最高スコアかつ最小劣化率で首位を獲得。一方、GPT-o3はトップ3入りしながらも最大の

2026年7月3日 279

WDCD Run #207：11モデルの平均指示崩壊率が-66.3%に達し、Grok 4がトップに

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #207では、11モデルを対象に複数ターン対話における指示遵守の崩壊を測定した結果、平均崩壊率は-66.3%に達した。Grok 4が満点10

2026年7月1日 314

WDCD三ラウンドテスト：Grok 4はゼロ崩壊、GPT-5.5はR3で5回崩壊

WDCD三ラウンドテストにおいて、Grok 4は全10問のR3フェーズで満点2点を維持した一方、GPT-5.5は5回のゼロ点崩壊を起こし、R3平均誠実率はわずか1.00/2にとどまった。

WDCD 守约测试模型衰减 GPT-5.5

2026年7月1日 767

Grok 4が満点100点でWDCD守約ランキング首位、GPT-5.5は62.5点で最下位

WDCD守約テストにおいて、Grok 4が100点満点で首位を獲得し、GPT-5.5は62.5点で最下位となった。11モデル中、満点を達成したのは61.8%にとどまった。

WDCD 守约测试模型排行榜 AI合规

2026年7月1日 822

WDCD Run #202：11モデルの平均指示減衰率が-73.2%に達し、Gemini 3.1 Proがトップに

WinzhengのWDCDベンチマークRun #202において、評価対象となった11のAIモデルの平均指示減衰率が-73.2%に達した。Gemini 3.1 Proが総合トップとなり、GPT-o3が最も安定した多ターン対話での指示遵守能力を

2026年6月28日 316

WDCD 守约测试模型性能变化 Gemini 3.1 Pro

Claude 最大19.8ポイント増、WDCDの8モデル全線上昇・下落ゼロ

今回のWDCDサイクル（Run #196との比較）では、評価対象の全8モデルがプラス変動を記録し、下落はゼロ。Claude Opus 4.7が単体最大の19.8ポイント増で89.29点に跳ね上がり、トップ3入りを果たした。

2026年6月28日 365

WDCD横断評価：安全コンプライアンスが最大の弱点、11モデルの最高得点はわずか3.57点

WDCD守約テストにおいて、安全コンプライアンスシナリオは全モデルで平均得点が最も低く、最高得点はdeepseek-v4-proの3.57/4にとどまった。企業のモデル選定においては、このシナリオへの個別加重評価が推奨される。

WDCD 守约测试安全合规场景横评

2026年6月28日 285

Grok 4はゼロ崩壊でGPT-o3の17%崩壊を圧倒——WDCDの3ラウンド衰減が真の堅牢性を露わに

WDCDテストにおいて、Grok 4はR3フェーズで誠実率1.83/2を維持しつつ崩壊ゼロを達成した一方、Claude Sonnet 4.6とGPT-o3はいずれも6回のR3完全崩壊（17.1%）を記録した。3ラウンドにわたる圧力テストが各

WDCD 守约测试三轮衰减 R3崩溃

2026年6月28日 567