WDCD に関するAIニュース | Winzheng AI ニュース

WDCD Run #196：平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合首位を維持したものの、-90%という急激

WDCD AI benchmark instruction decay multi-turn

2026年6月24日 335

オリジナル

WDCD Run #185：11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメント減衰率が-57.5%に達し、長文対話

WDCD AI benchmark instruction decay multi-turn

2026年6月17日 488

レビュー

WDCD三ラウンド衰退実測：GPT-o3のR3崩壊率50%、Qwen3 Maxは崩壊ゼロ

WDCD三ラウンドテストにおいて、GPT-o3はR3フェーズで崩壊率50%を記録した一方、Qwen3 MaxはR3での崩壊回数がゼロとなり、両者ともR1確認率は1.00であったにもかかわらず、持続的なプレッシャー下で全く異なる誠実性の軌跡を

WDCD 守约测试模型衰减业务规则约束

2026年6月17日 603

レビュー

Qwen3 Max が92.50点でWDCD守約ランキング首位、Doubao Pro は62.50点で最下位——30点差

Qwen3 MaxがWDCD守約ランキングで92.50点を獲得し首位に立った。一方、Doubao Proは62.50点で11モデル中最下位となり、トップとの差は30点に達した。

WDCD 守约测试 Qwen3 Max AI模型守约能力

2026年6月17日 605

オリジナル

WDCD Run #171：11モデルの平均指示崩壊率が-37.9%を記録、Qwen3 Maxが急落にもかかわらずトップを維持

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #171では、11モデルを対象に評価した結果、ラウンド1からラウンド3にかけての平均指示崩壊率が-37.9%となった。Qwen3 Maxが最

WDCD AI benchmark instruction decay multi-turn

2026年6月14日 477

レビュー

Qwen3 Max が84.38点でWDCD守約ランキング首位に——GPT-o3は67.19点で最下位、17点差が開く

Qwen3 MaxがWDCD守約ランキングで84.38点を獲得し首位に立ち、GPT-o3は67.19点で最下位となった。両者の差は17.19点に達した。

WDCD 守约测试 Qwen3 Max 模型对比

2026年6月14日 692

オリジナル

WDCD Run #169：Grok 4がマルチターン遵守テストでトップ、平均指示減衰率は4.5%に低下

Winzhengの動的コンテキスト減衰（WDCD）ベンチマークRun #169において、11モデルの平均指示減衰率は4.5%となり、Grok 4が74.2ポイントでトップを獲得した。一方、GPT-o3は-75%という最大の指示減衰を記録した

WDCD AI benchmark instruction decay multi-turn

2026年6月14日 374

レビュー

R3崩壊168回！Claude Opus 0.34点 vs Grok 1.22点、3ラウンドにわたる約束遵守の真の劣化

WDCDテストにおいて、Claude Opus 4.7のR3誠実率はわずか0.34/2であるのに対し、Grok 4は1.22/2に達し、両者のR3スコア差は0.88点に上り、継続的なプレッシャー下での異なるモデルの約束遵守能力の差が浮き彫り

WDCD 守约测试 Claude Opus Grok 4

2026年6月14日 423

レビュー

Grok 4が74.22点でトップ、GPT-o3が51.56点で最下位――WDCDスコア差22.66点

WDCD守約テストにおいて、Grok 4が74.22点で首位を獲得し、GPT-o3が51.56点で最下位となった。両者のスコア差は22.66点に達し、モデル間の明確な二極化が浮き彫りになった。

WDCD 守约测试 AI 模型排行榜 R3 崩溃率

2026年6月14日 441

オリジナル

指示の劣化を測定：3ラウンドの圧力でLLMのコンプライアンスは95.8%から68.3%に低下

大規模言語モデルは制約を「受け入れる」ことは得意だが、「維持する」ことは苦手であることが明らかになった。Winzhengの最新ベンチマーク「WDCD Run #164」では、11のフロンティアモデルが初回ラウンドで95.8%の制約遵守率を示

instruction decay WDCD LLM benchmark multi-turn dialogue

2026年6月12日 1,002

オリジナル

WDCD Run #164：11のフロンティアモデルにおける平均指示減衰率が-44.3%に到達

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #164において、11のAIモデルを評価した結果、第1ラウンドから第3ラウンドにかけて平均-44.3%の指示減衰が記録された。高い絶対スコア

WDCD AI benchmark instruction decay multi-turn

2026年6月11日 363

レビュー

R3崩壊率56.7%！GPT-o3の三ラウンド約束遵守テストで「口だけ」が最も深刻

WDCDの三ラウンドテストにおいて、モデルはR1でほぼ全員高得点を記録するものの、R3で直接圧力をかけられると集団崩壊することが判明した。平均誠実率はわずか68.3%で、「約束」と「実行」の乖離が鮮明になった。

WDCD 守约测试 AI模型评估上下文衰减

2026年6月11日 516

レビュー

GPT-5.5が88.33点で首位、GPT-o3が61.67点で最下位——R3崩壊率22.1%

WinzhengのWDCD守約テストにおいて、GPT-5.5が88.33点でトップに立ち、GPT-o3が61.67点で最下位に沈んだ。R3フェーズの全体崩壊率は22.1%に達し、現行大規模モデルが持続的な圧力下で抱える服従能力の課題が浮き彫

WDCD 守约测试 AI模型评测约束遵守

2026年6月11日 600

オリジナル

WDCD Run #161：11モデル全体の平均指示減衰率が-48.6%、GPT-5.5が89.2ポイントでトップ

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #161では、11モデルを対象に評価を実施した結果、Round 1からRound 3にかけての平均コミットメント減衰率が-48.6%となった

WDCD AI benchmark instruction decay multi-turn

2026年6月11日 953

レビュー

R3崩壊率に7倍の差！11モデルのWDCD三段階遵守における真の劣化検証

WDCDの三段階テストで、R1・R2でほぼ全モデルが高スコアを記録したにもかかわらず、R3で直接的なプレッシャーをかけると平均誠実率はわずか70.4%に低下し、66回が完全にゼロに崩壊したことが明らかになった。

WDCD 守约测试 AI模型评测安全合规

2026年6月11日 659

レビュー

GPT-5.5が89.17点でWDCDトップ、GPT-o3は70.83点で最下位に沈む

WDCD守約テスト第1回の結果が発表され、GPT-5.5が89.17点で首位を獲得。一方、GPT-o3は70.83点で最下位となり、両者の差は18点以上に達した。

WDCD 守约测试 AI模型排行约束遵循

2026年6月11日 597

オリジナル

WDCD Run #157：11モデルの平均指示劣化率が47.7%に到達、トップは3モデルが同点

Winzheng動的コンテキスト劣化(WDCD)ベンチマークのRun #157では、11モデルの平均コミットメント劣化率が47.7%に達し、Claude Sonnet 4.6、Gemini 2.5 Pro、Qwen3 Maxの3モデルが67

WDCD AI benchmark instruction decay multi-turn

2026年6月10日 878

レビュー

WDCD遵守テスト激震:5モデルが急落、最大12.5ポイント減、Qwen3 Maxが逆襲

最新のWDCDサイクルでは、主流5モデルが同時に大幅下落し、最大下落幅は12.5ポイントに達した一方、Qwen3 Maxのみが7.5ポイントのプラス成長を実現し、Top3入りを果たした。

WDCD 守约测试模型更新指令遵循

2026年6月10日 734

レビュー

11モデルWDCD横断評価：リソース制限で全員1点に崩壊、業務ルールで4点の最大差

WDCDパイロットデータによると、リソース制限シナリオでは全モデルの得点が最も低く、首位のgemini-3.1-proでもわずか2.5点にとどまった。一方、業務ルールシナリオでは最大の格差が生じ、gemini-2.5-proとgpt-o3が

WDCD 守约测试模型选型资源限制

2026年6月10日 578

レビュー

R3の遵守率が24.5%に急落、72回のクラッシュが11モデルの本性を暴く

WDCDテストで明らかになった衝撃の事実：大半のモデルはR1・R2段階では好成績を収めるものの、R3の直接的圧力下では遵守率が24.5%まで急落し、72回の完全クラッシュが発生した。これは多くのモデルが「表面的な遵守」に留まり、真の圧力下で

WDCD 守约测试 AI模型测试上下文衰减

2026年6月10日 504

WDCD に関するニュース

WDCD Run #196：平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持

WDCD Run #185：11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ

WDCD三ラウンド衰退実測：GPT-o3のR3崩壊率50%、Qwen3 Maxは崩壊ゼロ

Qwen3 Max が92.50点でWDCD守約ランキング首位、Doubao Pro は62.50点で最下位——30点差

WDCD Run #171：11モデルの平均指示崩壊率が-37.9%を記録、Qwen3 Maxが急落にもかかわらずトップを維持

Qwen3 Max が84.38点でWDCD守約ランキング首位に——GPT-o3は67.19点で最下位、17点差が開く

WDCD Run #169：Grok 4がマルチターン遵守テストでトップ、平均指示減衰率は4.5%に低下

R3崩壊168回！Claude Opus 0.34点 vs Grok 1.22点、3ラウンドにわたる約束遵守の真の劣化

Grok 4が74.22点でトップ、GPT-o3が51.56点で最下位――WDCDスコア差22.66点

指示の劣化を測定：3ラウンドの圧力でLLMのコンプライアンスは95.8%から68.3%に低下

WDCD Run #164：11のフロンティアモデルにおける平均指示減衰率が-44.3%に到達

R3崩壊率56.7%！GPT-o3の三ラウンド約束遵守テストで「口だけ」が最も深刻

GPT-5.5が88.33点で首位、GPT-o3が61.67点で最下位——R3崩壊率22.1%

WDCD Run #161：11モデル全体の平均指示減衰率が-48.6%、GPT-5.5が89.2ポイントでトップ

R3崩壊率に7倍の差！11モデルのWDCD三段階遵守における真の劣化検証

GPT-5.5が89.17点でWDCDトップ、GPT-o3は70.83点で最下位に沈む

WDCD Run #157：11モデルの平均指示劣化率が47.7%に到達、トップは3モデルが同点

WDCD遵守テスト激震:5モデルが急落、最大12.5ポイント減、Qwen3 Maxが逆襲

11モデルWDCD横断評価：リソース制限で全員1点に崩壊、業務ルールで4点の最大差

R3の遵守率が24.5%に急落、72回のクラッシュが11モデルの本性を暴く