WDCD に関するAIニュース | Winzheng AI ニュース

WDCD Run #253：Grok 4が94.8点でトップ、平均指示減衰率は4.5%

WinzhengのWDCDベンチマーク第253回実行において、Grok 4が94.8点で首位を獲得。11モデルを対象とした評価では、平均指示コミットメント減衰率は4.5%となった。

WDCD AI benchmark instruction decay multi-turn

ClaudeデュオがWDCDスコア6.8点上昇、Geminiは単独5.6点下落——守約ランキングが激変

WDCD v3.1守約テストのRun #253において、Claude Opus 4.7が6.8点上昇、Claude Sonnet 4.6が6.7点上昇した一方、Gemini 3.1 Proが5.6点下落し、多段階の段階的圧力下でのモデル間の

WDCD 守约测试 Claude Opus 4.7 Gemini 3.1 Pro

2日前 85

レビュー

WDCD 5大シナリオ横断評価：ビジネスルールで全モデル最低、エンジニアリング規範の3点差が最も厳しい結果に

WDCD v3.1の5大シナリオ横断評価において、ビジネスルールシナリオが全モデルにとって最難関となり、エンジニアリング規範シナリオでは最大3点という大きなスコア差が生じた。Claude-opus-4.7はエンジニアリング規範のみ3/4にと

WDCD 守约测试场景横评 Claude Opus

2日前 69

レビュー

WDCD三ラウンドアンカーテスト：R3誠実率わずか45.5%、GPT-5.5とQwen3 Maxの崩壊率20%

8問のv2アンカー問題を用いた3ラウンドテストにおいて、11モデルの平均R1確認率は0.95、R2抵抗率は0.86だったが、R3誠実率は45.5%まで低下し、9回の完全崩壊（0点）が発生した。この結果は、持続的なプレッシャー下でのモデルの約

WDCD 守约测试约束衰减模型稳定性

2日前 58

レビュー

Grok 4がWDCD守約ランキングで94.80点首位、DoubaoProは64.20点で最下位――両者の差は30点超

WDCD v3.1守約テストにおいて、Grok 4が94.80点で首位を獲得し、Doubao Proは64.20点で11位に終わり、両者の差は30.6点に達した。

WDCD 守约测试 AI模型排名约束遵守

2日前 50

オリジナル

WDCD Run #247：Grok 4がネガティブ減衰でトップ、平均指示減衰率は-1.8%に縮小

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #247では、11モデルを対象に多ターン対話における指示遵守の減衰を測定し、平均指示減衰率は-1.8%を記録。上位モデルは減衰どころか指示遵

WDCD AI benchmark instruction decay multi-turn

5日前 192

レビュー

Grok 4が94.20点でトップ維持、ClaudeとGeminiは5点以上下落

WDCD v3.1パイロット評価のRun #247において、Grok 4が94.20点で首位を維持する一方、Claude Opus 4.7とGemini 3.1 Proはいずれも5点以上下落し83点台に後退した。

WDCD 守约测试 Claude Opus Gemini 3.1 Pro

5日前 308

レビュー

WDCD五大シナリオ横断評価：ビジネスルールが最難関、Grok-4は満点・Claude-sonnetは1.8点

WDCD v3.1の契約遵守テストにおいて、ビジネスルールシナリオの平均スコアが最低となり、Claude-sonnet-4.6はわずか1.8/4点に留まった一方、Grok-4は満点4/4を獲得し、両者の差は2.2点に達した。

WDCD 守约测试模型横评企业选型

5日前 272

レビュー

R3誠実率わずか50.6%：Grok 4はゼロ崩壊、GPT-o3は20%崩壊

WDCD v3.1パイロットテストにおける8問のv2三段階アンカー問題の結果、11モデルのR3平均誠実率はわずか50.6%にとどまった。Grok 4がR3で1.63/2を達成しゼロ崩壊を記録した一方、GPT-o3とQwen3 Maxの崩壊率

WDCD 守约测试约束衰减三轮锚点

5日前 258

オリジナル

WDCD Run #242：Grok 4とGLM-4.6が指示劣化ゼロを維持、Gemini 3.1 Proは-100%で完全崩壊

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #242において、Grok 4とGLM-4.6が指示劣化率0%でトップを維持する一方、Gemini 3.1 Proは-100%という最悪の結

WDCD AI benchmark instruction decay multi-turn

2026年7月22日 212

レビュー

GLM-4.6がWDCDで13.7点急伸、GPT-o3は6.9点下落——守約Top圏の序列が再編

最新のWDCD v3.1守約テストにおいて、GLM-4.6が13.7点上昇して92.00点に達した一方、GPT-o3は6.9点下落して87.10点となり、上位5モデルの内部順位が大きく塗り替えられた。

WDCD 守约测试模型评估 AI合规

2026年7月22日 262

レビュー

リソース制限シナリオで最低1.55点：11モデルのWDCD契約遵守テスト、最大スコア差は2.45点

WDCD v3.1の契約遵守テストにおいて、リソース制限シナリオでgpt-5.5が1.55/4と最低スコアを記録し、全5シナリオ中の最大スコア差は2.45点に達した。モデルの契約遵守能力はシナリオ固有の特性であり、単一シナリオの成績から全体

WDCD 守约测试模型横评资源限制

2026年7月22日 224

レビュー

R3誠実率わずか40.9%：WDCDで4モデルがビジネスルール項目で0点崩壊

v2アンカー問題8問のみを対象とした3ラウンドテストにおいて、11モデルのR3平均誠実率はわずか40.9%にとどまり、4モデルがR3で完全崩壊（0点）を記録した。崩壊事例はすべてビジネスルール類の制約に集中している。

WDCD 守约测试约束衰减业务规则

2026年7月22日 221

レビュー

Grok 4が93.80点でコンプライアンス遵守首位、Doubao Proが67.30点で最下位——両者の差は26.5点

WDCD v3.1コンプライアンス遵守テストにおいて、Grok 4が93.80点で11モデル中最高得点を記録し、Doubao Proが67.30点で最下位となった。両者の差は26.5点に達し、多ターン段階的プレッシャー下での制約保持能力に大

WDCD 守约测试 AI模型评估约束遵守能力

2026年7月22日 163

オリジナル

WDCD Run #233：GPT-o3がゼロ崩壊でトップ、Gemini 3.1 Proは完全崩壊

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #233において、GPT-o3が94点・崩壊率0%で首位を獲得。一方、Gemini 3.1 Proは-100%という最悪の崩壊スコアを記録し

WDCD AI benchmark instruction decay multi-turn

2026年7月15日 233

レビュー

Claude Sonnet 4.6が15点急上昇、GLM-4.6が15.3点急落——WDCDの守約評価で二極化進む

WDCD v3.1テスト（Run #233）において、Claude Sonnet 4.6が前回比15点上昇、GLM-4.6が15.3点下落という対称的な変動が観測され、11モデル中最も顕著な守約能力の二極化が明らかになった。

WDCD 守约测试 Claude Sonnet 4.6 GLM-4.6

2026年7月15日 145

レビュー

業務ルールがWDCDの最大弱点に——Qwen3-max 1.55点 vs DeepSeek 4点

WDCD v3.1のパイロットデータにより、業務ルールシナリオが11モデル中で約束遵守生存率が最も低い次元であることが判明した。首位のDeepSeek V4 Proが4/4満点を獲得する一方、最下位のQwen3-maxはわずか1.55/4に

WDCD 守约测试业务规则模型偏科

2026年7月15日 139

レビュー

R3施圧後の誠実率36.4%：4モデルがゼロ点崩壊——WDCDの守約の真実

WDCD v3.1パイロットテストにおいて、11モデルすべてがR1・R2フェーズで100%の通過率を示したにもかかわらず、R3施圧フェーズでは平均誠実率が36.4%にとどまり、4モデルが完全崩壊（0点）を記録した。業務ルール類の制約が特に脆

WDCD 守约测试约束衰减 R3施压

2026年7月15日 139

レビュー

WDCD守約ランキング GPT-o3が94点で首位、Qwen3 Maxが62.6点で最下位

WDCD v3.1守約ランキングでGPT-o3が94.00点で首位を獲得し、Qwen3 Maxが62.60点で最下位となった。評価対象の11モデルで首位と最下位の差は31.4点に達した。

WDCD 守约测试模型排行榜 AI合规能力

2026年7月15日 100

オリジナル

WDCD Run #227：Grok 4とDeepSeek V4 Proが91.4点で同率首位、11モデル平均の指示遵守減衰率は-2.8%

WinzhengのWDCDベンチマークRun #227において、11の最先端モデルを対象に測定した結果、Grok 4とDeepSeek V4 Proが91.4点で同率首位を獲得した。全モデルの平均指示遵守減衰率は-2.8%だったが、モデルご

WDCD AI benchmark instruction decay multi-turn

2026年7月12日 566

WDCD に関するニュース

WDCD Run #253：Grok 4が94.8点でトップ、平均指示減衰率は4.5%

ClaudeデュオがWDCDスコア6.8点上昇、Geminiは単独5.6点下落——守約ランキングが激変

WDCD 5大シナリオ横断評価：ビジネスルールで全モデル最低、エンジニアリング規範の3点差が最も厳しい結果に

WDCD三ラウンドアンカーテスト：R3誠実率わずか45.5%、GPT-5.5とQwen3 Maxの崩壊率20%

Grok 4がWDCD守約ランキングで94.80点首位、DoubaoProは64.20点で最下位――両者の差は30点超

WDCD Run #247：Grok 4がネガティブ減衰でトップ、平均指示減衰率は-1.8%に縮小

Grok 4が94.20点でトップ維持、ClaudeとGeminiは5点以上下落

WDCD五大シナリオ横断評価：ビジネスルールが最難関、Grok-4は満点・Claude-sonnetは1.8点

R3誠実率わずか50.6%：Grok 4はゼロ崩壊、GPT-o3は20%崩壊

WDCD Run #242：Grok 4とGLM-4.6が指示劣化ゼロを維持、Gemini 3.1 Proは-100%で完全崩壊

GLM-4.6がWDCDで13.7点急伸、GPT-o3は6.9点下落——守約Top圏の序列が再編

リソース制限シナリオで最低1.55点：11モデルのWDCD契約遵守テスト、最大スコア差は2.45点

R3誠実率わずか40.9%：WDCDで4モデルがビジネスルール項目で0点崩壊

Grok 4が93.80点でコンプライアンス遵守首位、Doubao Proが67.30点で最下位——両者の差は26.5点

WDCD Run #233：GPT-o3がゼロ崩壊でトップ、Gemini 3.1 Proは完全崩壊

Claude Sonnet 4.6が15点急上昇、GLM-4.6が15.3点急落——WDCDの守約評価で二極化進む

業務ルールがWDCDの最大弱点に——Qwen3-max 1.55点 vs DeepSeek 4点

R3施圧後の誠実率36.4%：4モデルがゼロ点崩壊——WDCDの守約の真実

WDCD守約ランキング GPT-o3が94点で首位、Qwen3 Maxが62.6点で最下位

WDCD Run #227：Grok 4とDeepSeek V4 Proが91.4点で同率首位、11モデル平均の指示遵守減衰率は-2.8%