WDCD に関するニュース

67.5点で三強並列首位、Grok4はわずか50点で最下位 WDCD遵守ランキング

WDCD遵守テスト第1期の結果が発表され、3モデルが67.50点で並列首位、Grok 4とERNIE Bot 4.5が50点で並列最下位、R3段階では65.5%のモデルが崩壊した。

WDCD 守约测试 Claude Sonnet 模型约束能力

2026年6月10日 560

オリジナル

WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ

WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイとなった一方、Doubao Proが減衰率

WDCD AI benchmark instruction decay multi-turn

2026年6月3日 579

Grok 4が10.8点急騰で圧倒、Qwen3 Maxは10.8点暴落 WDCDサイクルで大規模洗い直し

最新のWDCD評価サイクルでGrok 4が10.8点上昇する一方、Qwen3 Maxは10.8点下落し、各モデルの規則遵守能力に顕著な分化が見られた。prompt感度がコア変数になりつつあり、今後さらなる激しい順位変動が予想される。

WDCD 守约测试 AI模型评估周期变化

2026年6月3日 773

WDCD横断比較で判明：リソース制限が11モデル最大の弱点、平均わずか1.7点

WDCD遵守テストにおいて、リソース制限のシナリオが全モデルを苦戦させ、11モデルの平均得点はわずか1.7点と、他4シナリオを大きく下回った。本記事では各モデルの偏向特性と企業選定への具体的提言を分析する。

WDCD 守约测试模型偏科企业选型

2026年6月3日 678

11モデルWDCD三段階テスト：R1で95%が約束、R3で65回の直接崩壊

WDCD三段階テストの結果、モデルは初期段階でほぼ全員が高得点を獲得したものの、二度の干渉を経た後、6割以上のモデルが直接的な圧力下で当初の約束を完全に放棄した。

WDCD 守约测试三轮衰减模型诚信

2026年6月3日 701

WDCD遵守ランキングで70点の三強が並びトップ、ERNIE Botは50点で崩壊し最下位

WDCD遵守テストで11モデルのうち、Claude Opus 4.7、GPT-5.5、GPT-o3の3モデルが70点で並びトップとなり、ERNIE Bot 4.5は50点で明らかな断層を見せ最下位となった。

WDCD 守约测试 AI模型排行约束遵守

2026年6月3日 662

オリジナル

WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話における制約維持能力が、現行フロンティア

WDCD AI benchmark instruction decay multi-turn

2026年5月31日 445

Gemini 3.1 Proが14.2点急騰、WDCD五モデル全上昇でゼロ下落

最新のWDCDテストサイクルでは、参加11モデルのうち5モデルが上昇し下降は0、Gemini 3.1 Proが+14.2点で最大の伸びを記録しトップ3入りを果たした。

WDCD 守约测试模型更新提示敏感度

2026年5月31日 651

リソース制限シーンで全モデル崩壊！WDCDテストで11モデルの平均はわずか1.95点

WDCD守約テストでは11モデルがリソース制限シーンで軒並み低スコアを記録し、平均1.95点に留まった。安全コンプライアンスシーンでは最大の差が現れ、企業選定における偏科モデルのリスクが浮き彫りとなった。

WDCD 守约测试资源限制模型偏科

2026年5月31日 508

R3崩壊率は60%に達する！11モデルがWDCD三回テストで集団失墜

11の主流モデルがWDCD三回テストで明確な減衰軌跡を示し、R1段階ではほぼ全員が制約を確認したものの、R3段階での直接的な圧力下では平均誠実率がわずか30.5%にまで低下し、200回のテストで直接ゼロになった事例もあった。

WDCD 守约测试 AI模型对齐三轮压力测试

2026年5月31日 543

Qwen3 Max が70.83点で WDCD 遵守ランキング首位、Grok4 は51.67点で最下位

WDCD 遵守テスト第1ラウンドの公開ランキングで、Qwen3 Max が70.83点で首位、Grok4 が51.67点で最下位となり、R3段階での平均違反率は60.6%に達し、多くのモデルが実際の企業制約下で依然として容易に違反することが

WDCD 守约测试 AI模型评测守约能力分析

2026年5月31日 577

オリジナル

WDCD Run #135：Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に

WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の減衰を記録した。

WDCD AI benchmark instruction decay multi-turn

2026年5月27日 434

Qwen3 Max が15分急騰しトップに、Claude Opus は7.5分急落――誰が本当に約束を守るのか

今回の WDCD ラウンドでは Qwen3 Max が72.50点で首位を獲得し、前回比15点上昇した一方、Claude Opus 4.7は7.5点下落、中国製モデルが「守約能力（約束を守る能力）」で英語圏モデルとの差を急速に縮めている。

WDCD 守约测试 AI模型评测周期变化追踪

2026年5月27日 617

WDCD横断評価で判明：業務ルールが11モデル共通の弱点に、安全コンプライアンスは差別化2点と最大

WDCDの5シナリオ横断評価で、業務ルールが全モデル共通の弱点となり平均2.05点に留まる一方、安全コンプライアンスシナリオでは最高3.5点と最低1.5点の差が2点と最大の差別化を示した。

WDCD 守约测试模型选型场景偏科

2026年5月27日 630

R1で93%が即承諾、R3では26.4%しか守れず：11モデルWDCD三段階崩壊実測

WDCD三段階テストにより、モデルの「口先だけの紳士」の仮面が剥がされた。R1段階での平均確認率0.93は華やかに見えるが、R3で直接圧力をかけると誠実率は26.4%まで急落し、67回のテストでモデルが完全に制約を放棄した。

WDCD 守约测试模型衰减 R3崩溃

2026年5月27日 562

Qwen3 Max が72.5点でWDCD制覇、ERNIE Botは45点で最下位、R3崩壊率は60.9%

WDCD遵守テストの3ラウンド対話で、Qwen3 Maxが72.50点で首位を獲得し、2位のClaude Sonnet 4.6を7.5点引き離した。ERNIE Bot 4.5は45点で唯一50点を下回り、R3段階での崩壊率60.9%は業界の

WDCD 守约测试 AI模型排行榜大模型合规性

2026年5月27日 589

オリジナル

WDCD Run #125：平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、DeepSeek V4 Proは90%減と最大の

WDCD AI benchmark instruction decay multi-turn

2026年5月20日 673

GPT-5.5が19.2ポイント暴落！6モデルがWDCD遵守テストで一斉に後退

今回のWDCDサイクル変化追跡では、11の評価対象モデルのうち6つが顕著な下落を示し、上昇したモデルはゼロでした。GPT-5.5は19.2ポイントの下落で最大の敗者となり、Claudeシリーズが遵守能力で他を引き離す傾向が鮮明になっています

WDCD 守约测试模型对齐 AI能力退化

2026年5月20日 630

WDCD 5大シナリオ横断評価：業務ルールが最難関に、ClaudeとDoubaoの偏科差は2点に達する

WDCD遵守テストの試験運用データによると、業務ルールシナリオは全モデル共通の弱点となり最高得点はわずか2.5点、一方で安全コンプライアンスシナリオはモデル間の格差を最大に広げる結果となりました。

WDCD 守约测试场景横评 AI模型选型

2026年5月20日 564

R3崩壊率85％！11モデルWDCD三段階テスト：約束から裏切りへのリアルな減衰曲線

WDCDテストでは三段階の漸進的な圧力により、モデルが持続的なストレス下で約束を守れなくなる崩壊軌跡を精密に捕捉。R1段階ではほぼ全モデルが完璧な確認を示すが、R3直接圧力段階では平均誠実率が17.7％まで急落することが判明した。

WDCD 守约测试 AI模型衰减约束遵循

2026年5月20日 480