WDCD に関するニュース

WDCD v3.1 五大シナリオ横断評価：業務ルールが1.3点で最下位、11モデルの得意不得意の差が2.1点

WDCD v3.1パイロット評価において、業務ルールシナリオが全シナリオ中最低得点となり、最下位のqwen3-maxはわずか1.3/4を記録した。また、doubao-proをはじめとする複数モデルでシナリオ間の得点差が最大2.1点に達する「

WDCD 守约测试业务规则场景数据边界

2026年7月8日 296

R3誠実率わずか61.4%：Claude Sonnet 4.6の崩壊率20%が三ラウンド衰退断層を露呈

8問のv2アンカー問題に対するworst-of-3サンプリングにおいて、11モデルのR3平均誠実率はわずか61.4%にとどまり、Claude Sonnet 4.6はR3崩壊率20%という最も深刻な衰退を示した。このデータは、現行主流モデルが

WDCD 守约测试模型衰减三轮施压

2026年7月8日 242

WDCD横断評価：ビジネスルールシナリオで最低1.55点、grok-4が安全コンプライアンスで3.86点トップ

WDCD v3.1の遵守テストにおいて、ビジネスルールシナリオが全シナリオ中で最も低い得点を記録し、grok-4が全シナリオで安定してトップを維持した。企業のモデル選定にあたっては、総合ランキングではなくシナリオ別のマッチングが重要であるこ

WDCD 守约测试业务规则安全合规

2026年7月3日 316

R3誠実率わずか30.2%：11モデル・3ラウンドアンカー問題で44回の完全崩壊

YZ IndexのWDCD評価において、8問のv2アンカー問題に対する275回のサンプリングでR1平均確認率は0.99に達したが、R3誠実率はわずか30.2%にとどまり、44回の完全崩壊（0点）が発生した。本記事はラウンドが進むにつれてモデ

WDCD 守约测试 v3.1约束衰减 GPT-o3崩溃

2026年7月3日 317

Grok 4が91.20点でWDCD守約ランキング首位、Qwen3 Maxは57.48点で最下位——33.72点の差

WDCD守約ランキングにおいて、Grok 4が91.20点で首位を獲得し、Qwen3 Maxが57.48点で最下位となり、上位と下位の差は33.72点に達した。

WDCD 守约测试模型守约能力 Grok 4

2026年7月3日 546

WDCD三ラウンドテスト：Grok 4はゼロ崩壊、GPT-5.5はR3で5回崩壊

WDCD三ラウンドテストにおいて、Grok 4は全10問のR3フェーズで満点2点を維持した一方、GPT-5.5は5回のゼロ点崩壊を起こし、R3平均誠実率はわずか1.00/2にとどまった。

WDCD 守约测试模型衰减 GPT-5.5

2026年7月1日 767

Grok 4が満点100点でWDCD守約ランキング首位、GPT-5.5は62.5点で最下位

WDCD守約テストにおいて、Grok 4が100点満点で首位を獲得し、GPT-5.5は62.5点で最下位となった。11モデル中、満点を達成したのは61.8%にとどまった。

WDCD 守约测试模型排行榜 AI合规

2026年7月1日 822

Claude 最大19.8ポイント増、WDCDの8モデル全線上昇・下落ゼロ

今回のWDCDサイクル（Run #196との比較）では、評価対象の全8モデルがプラス変動を記録し、下落はゼロ。Claude Opus 4.7が単体最大の19.8ポイント増で89.29点に跳ね上がり、トップ3入りを果たした。

WDCD 守约测试模型性能变化 Gemini 3.1 Pro

2026年6月28日 365

WDCD横断評価：安全コンプライアンスが最大の弱点、11モデルの最高得点はわずか3.57点

WDCD守約テストにおいて、安全コンプライアンスシナリオは全モデルで平均得点が最も低く、最高得点はdeepseek-v4-proの3.57/4にとどまった。企業のモデル選定においては、このシナリオへの個別加重評価が推奨される。

WDCD 守约测试安全合规场景横评

2026年6月28日 285

Grok 4はゼロ崩壊でGPT-o3の17%崩壊を圧倒——WDCDの3ラウンド衰減が真の堅牢性を露わに

WDCDテストにおいて、Grok 4はR3フェーズで誠実率1.83/2を維持しつつ崩壊ゼロを達成した一方、Claude Sonnet 4.6とGPT-o3はいずれも6回のR3完全崩壊（17.1%）を記録した。3ラウンドにわたる圧力テストが各

WDCD 守约测试三轮衰减 R3崩溃

2026年6月28日 566

Gemini 3.1 Pro が93.57点でWDCD守約ランキング1位、ERNIE Bot 4.5は75.71点で最下位

Winzhengが実施したWDCD守約テストにおいて、Gemini 3.1 Proが93.57点で首位を獲得し、ERNIE Bot 4.5が75.71点で11モデル中最下位となった。R2干渉抵抗とR3加圧耐性が各モデルの最終順位を左右する主

WDCD 守约测试排行榜分析 Gemini 3.1 Pro

2026年6月28日 255

WDCD三ラウンド衰退実測：GPT-o3のR3崩壊率50%、Qwen3 Maxは崩壊ゼロ

WDCD三ラウンドテストにおいて、GPT-o3はR3フェーズで崩壊率50%を記録した一方、Qwen3 MaxはR3での崩壊回数がゼロとなり、両者ともR1確認率は1.00であったにもかかわらず、持続的なプレッシャー下で全く異なる誠実性の軌跡を

WDCD 守约测试模型衰减业务规则约束

2026年6月17日 603

Qwen3 Max が92.50点でWDCD守約ランキング首位、Doubao Pro は62.50点で最下位——30点差

Qwen3 MaxがWDCD守約ランキングで92.50点を獲得し首位に立った。一方、Doubao Proは62.50点で11モデル中最下位となり、トップとの差は30点に達した。

WDCD 守约测试 Qwen3 Max AI模型守约能力

2026年6月17日 605

Qwen3 Max が84.38点でWDCD守約ランキング首位に——GPT-o3は67.19点で最下位、17点差が開く

Qwen3 MaxがWDCD守約ランキングで84.38点を獲得し首位に立ち、GPT-o3は67.19点で最下位となった。両者の差は17.19点に達した。

WDCD 守约测试 Qwen3 Max 模型对比

2026年6月14日 692

R3崩壊168回！Claude Opus 0.34点 vs Grok 1.22点、3ラウンドにわたる約束遵守の真の劣化

WDCDテストにおいて、Claude Opus 4.7のR3誠実率はわずか0.34/2であるのに対し、Grok 4は1.22/2に達し、両者のR3スコア差は0.88点に上り、継続的なプレッシャー下での異なるモデルの約束遵守能力の差が浮き彫り

WDCD 守约测试 Claude Opus Grok 4

2026年6月14日 423

Grok 4が74.22点でトップ、GPT-o3が51.56点で最下位――WDCDスコア差22.66点

WDCD守約テストにおいて、Grok 4が74.22点で首位を獲得し、GPT-o3が51.56点で最下位となった。両者のスコア差は22.66点に達し、モデル間の明確な二極化が浮き彫りになった。

WDCD 守约测试 AI 模型排行榜 R3 崩溃率

2026年6月14日 441

R3崩壊率56.7%！GPT-o3の三ラウンド約束遵守テストで「口だけ」が最も深刻

WDCDの三ラウンドテストにおいて、モデルはR1でほぼ全員高得点を記録するものの、R3で直接圧力をかけられると集団崩壊することが判明した。平均誠実率はわずか68.3%で、「約束」と「実行」の乖離が鮮明になった。

WDCD 守约测试 AI模型评估上下文衰减

2026年6月11日 516

GPT-5.5が88.33点で首位、GPT-o3が61.67点で最下位——R3崩壊率22.1%

WinzhengのWDCD守約テストにおいて、GPT-5.5が88.33点でトップに立ち、GPT-o3が61.67点で最下位に沈んだ。R3フェーズの全体崩壊率は22.1%に達し、現行大規模モデルが持続的な圧力下で抱える服従能力の課題が浮き彫

WDCD 守约测试 AI模型评测约束遵守

2026年6月11日 600

R3崩壊率に7倍の差！11モデルのWDCD三段階遵守における真の劣化検証

WDCDの三段階テストで、R1・R2でほぼ全モデルが高スコアを記録したにもかかわらず、R3で直接的なプレッシャーをかけると平均誠実率はわずか70.4%に低下し、66回が完全にゼロに崩壊したことが明らかになった。

WDCD 守约测试 AI模型评测安全合规

2026年6月11日 659

GPT-5.5が89.17点でWDCDトップ、GPT-o3は70.83点で最下位に沈む

WDCD守約テスト第1回の結果が発表され、GPT-5.5が89.17点で首位を獲得。一方、GPT-o3は70.83点で最下位となり、両者の差は18点以上に達した。

WDCD 守约测试 AI模型排行约束遵循

2026年6月11日 597