WDCD に関するAIニュース | Winzheng AI ニュース

ClaudeデュオがWDCDスコア6.8点上昇、Geminiは単独5.6点下落——守約ランキングが激変

WDCD v3.1守約テストのRun #253において、Claude Opus 4.7が6.8点上昇、Claude Sonnet 4.6が6.7点上昇した一方、Gemini 3.1 Proが5.6点下落し、多段階の段階的圧力下でのモデル間の

WDCD 守约测试 Claude Opus 4.7 Gemini 3.1 Pro

2日前 83

レビュー

WDCD 5大シナリオ横断評価：ビジネスルールで全モデル最低、エンジニアリング規範の3点差が最も厳しい結果に

WDCD v3.1の5大シナリオ横断評価において、ビジネスルールシナリオが全モデルにとって最難関となり、エンジニアリング規範シナリオでは最大3点という大きなスコア差が生じた。Claude-opus-4.7はエンジニアリング規範のみ3/4にと

WDCD 守约测试场景横评 Claude Opus

2日前 68

レビュー

WDCD三ラウンドアンカーテスト：R3誠実率わずか45.5%、GPT-5.5とQwen3 Maxの崩壊率20%

8問のv2アンカー問題を用いた3ラウンドテストにおいて、11モデルの平均R1確認率は0.95、R2抵抗率は0.86だったが、R3誠実率は45.5%まで低下し、9回の完全崩壊（0点）が発生した。この結果は、持続的なプレッシャー下でのモデルの約

WDCD 守约测试约束衰减模型稳定性

2日前 58

レビュー

Grok 4がWDCD守約ランキングで94.80点首位、DoubaoProは64.20点で最下位――両者の差は30点超

WDCD v3.1守約テストにおいて、Grok 4が94.80点で首位を獲得し、Doubao Proは64.20点で11位に終わり、両者の差は30.6点に達した。

WDCD 守约测试 AI模型排名约束遵守

2日前 50

レビュー

Grok 4が94.20点でトップ維持、ClaudeとGeminiは5点以上下落

WDCD v3.1パイロット評価のRun #247において、Grok 4が94.20点で首位を維持する一方、Claude Opus 4.7とGemini 3.1 Proはいずれも5点以上下落し83点台に後退した。

WDCD 守约测试 Claude Opus Gemini 3.1 Pro

5日前 308

レビュー

WDCD五大シナリオ横断評価：ビジネスルールが最難関、Grok-4は満点・Claude-sonnetは1.8点

WDCD v3.1の契約遵守テストにおいて、ビジネスルールシナリオの平均スコアが最低となり、Claude-sonnet-4.6はわずか1.8/4点に留まった一方、Grok-4は満点4/4を獲得し、両者の差は2.2点に達した。

WDCD 守约测试模型横评企业选型

5日前 271

レビュー

R3誠実率わずか50.6%：Grok 4はゼロ崩壊、GPT-o3は20%崩壊

WDCD v3.1パイロットテストにおける8問のv2三段階アンカー問題の結果、11モデルのR3平均誠実率はわずか50.6%にとどまった。Grok 4がR3で1.63/2を達成しゼロ崩壊を記録した一方、GPT-o3とQwen3 Maxの崩壊率

WDCD 守约测试约束衰减三轮锚点

5日前 258

レビュー

GLM-4.6がWDCDで13.7点急伸、GPT-o3は6.9点下落——守約Top圏の序列が再編

最新のWDCD v3.1守約テストにおいて、GLM-4.6が13.7点上昇して92.00点に達した一方、GPT-o3は6.9点下落して87.10点となり、上位5モデルの内部順位が大きく塗り替えられた。

WDCD 守约测试模型评估 AI合规

2026年7月22日 262

レビュー

リソース制限シナリオで最低1.55点：11モデルのWDCD契約遵守テスト、最大スコア差は2.45点

WDCD v3.1の契約遵守テストにおいて、リソース制限シナリオでgpt-5.5が1.55/4と最低スコアを記録し、全5シナリオ中の最大スコア差は2.45点に達した。モデルの契約遵守能力はシナリオ固有の特性であり、単一シナリオの成績から全体

WDCD 守约测试模型横评资源限制

2026年7月22日 224

レビュー

R3誠実率わずか40.9%：WDCDで4モデルがビジネスルール項目で0点崩壊

v2アンカー問題8問のみを対象とした3ラウンドテストにおいて、11モデルのR3平均誠実率はわずか40.9%にとどまり、4モデルがR3で完全崩壊（0点）を記録した。崩壊事例はすべてビジネスルール類の制約に集中している。

WDCD 守约测试约束衰减业务规则

2026年7月22日 221

レビュー

Grok 4が93.80点でコンプライアンス遵守首位、Doubao Proが67.30点で最下位——両者の差は26.5点

WDCD v3.1コンプライアンス遵守テストにおいて、Grok 4が93.80点で11モデル中最高得点を記録し、Doubao Proが67.30点で最下位となった。両者の差は26.5点に達し、多ターン段階的プレッシャー下での制約保持能力に大

WDCD 守约测试 AI模型评估约束遵守能力

2026年7月22日 163

レビュー

Claude Sonnet 4.6が15点急上昇、GLM-4.6が15.3点急落——WDCDの守約評価で二極化進む

WDCD v3.1テスト（Run #233）において、Claude Sonnet 4.6が前回比15点上昇、GLM-4.6が15.3点下落という対称的な変動が観測され、11モデル中最も顕著な守約能力の二極化が明らかになった。

WDCD 守约测试 Claude Sonnet 4.6 GLM-4.6

2026年7月15日 145

レビュー

業務ルールがWDCDの最大弱点に——Qwen3-max 1.55点 vs DeepSeek 4点

WDCD v3.1のパイロットデータにより、業務ルールシナリオが11モデル中で約束遵守生存率が最も低い次元であることが判明した。首位のDeepSeek V4 Proが4/4満点を獲得する一方、最下位のQwen3-maxはわずか1.55/4に

WDCD 守约测试业务规则模型偏科

2026年7月15日 137

レビュー

R3施圧後の誠実率36.4%：4モデルがゼロ点崩壊——WDCDの守約の真実

WDCD v3.1パイロットテストにおいて、11モデルすべてがR1・R2フェーズで100%の通過率を示したにもかかわらず、R3施圧フェーズでは平均誠実率が36.4%にとどまり、4モデルが完全崩壊（0点）を記録した。業務ルール類の制約が特に脆

WDCD 守约测试约束衰减 R3施压

2026年7月15日 139

レビュー

WDCD守約ランキング GPT-o3が94点で首位、Qwen3 Maxが62.6点で最下位

WDCD v3.1守約ランキングでGPT-o3が94.00点で首位を獲得し、Qwen3 Maxが62.60点で最下位となった。評価対象の11モデルで首位と最下位の差は31.4点に達した。

WDCD 守约测试模型排行榜 AI合规能力

2026年7月15日 100

レビュー

WDCD全モデルがプラス成長：DeepSeek V4 Proが23.6点急上昇、Grok 4に0.04点差で惜敗

WDCD v3.1の約束遵守テストにおいて、評価対象9モデル全てがスコアアップを記録。DeepSeek V4 Proが23.6点の大幅上昇で91.36点に達したが、Grok 4の91.40点にわずか0.04点差で及ばなかった。

WDCD 守约测试模型动态约束保持

2026年7月12日 236

レビュー

WDCD横評：安全コンプライアンスシナリオの最低スコアは2.13点のみ、Grok-4とQwen3-Maxの差は1.73点

WDCD v3.1の5シナリオ横断評価において、安全コンプライアンスシナリオが最も低スコアとなり、Qwen3-Maxは2.13/4に留まる一方、Grok-4は3.86/4を記録し、両者の差は1.73点に達した。各モデルの得意・不得意シナリオ

WDCD 守约测试数据边界安全合规

2026年7月12日 204

レビュー

R3誠実率わずか50.7%：11モデル・三段階アンカーポイントにおける約束崩壊の真相

WDCD v3.1パイロットテストにおいて、11のAIモデルを対象に三段階のアンカーポイント評価を実施した結果、R1平均確認率0.99に対しR3平均誠実率は50.7%にとどまり、28回のゼロ点事例が発生した。この結果は、モデルが「約束を立て

WDCD 守约测试三轮衰减约束记忆

2026年7月12日 173

レビュー

Grok 4が91.40点でWDCD守約ランキング首位、Qwen3 Maxが64.88点で最下位

WDCD v3.1テストにおいて、Grok 4が91.40点でトップに立ち、Qwen3 Maxが64.88点で最下位となった。上位4モデルと下位モデルの間には明確な格差が生じている。

WDCD 守约测试 AI模型评估约束遵守能力

2026年7月12日 169

レビュー

WDCD v3.1：DeepSeek V4 Proが26.2点上昇、Claude Sonnet 4.6は5.9点下落

最新のWDCD v3.1評価において、Grok 4が95.00点で首位を維持する一方、DeepSeek V4 Proが26.2点の大幅上昇で94.00点に達し、GLM-4.6も21.8点上昇して93.60点を記録。唯一の下落モデルはClau

WDCD 守约测试模型评估生产接入

2026年7月8日 296

WDCD に関するニュース

ClaudeデュオがWDCDスコア6.8点上昇、Geminiは単独5.6点下落——守約ランキングが激変

WDCD 5大シナリオ横断評価：ビジネスルールで全モデル最低、エンジニアリング規範の3点差が最も厳しい結果に

WDCD三ラウンドアンカーテスト：R3誠実率わずか45.5%、GPT-5.5とQwen3 Maxの崩壊率20%

Grok 4がWDCD守約ランキングで94.80点首位、DoubaoProは64.20点で最下位――両者の差は30点超

Grok 4が94.20点でトップ維持、ClaudeとGeminiは5点以上下落

WDCD五大シナリオ横断評価：ビジネスルールが最難関、Grok-4は満点・Claude-sonnetは1.8点

R3誠実率わずか50.6%：Grok 4はゼロ崩壊、GPT-o3は20%崩壊

GLM-4.6がWDCDで13.7点急伸、GPT-o3は6.9点下落——守約Top圏の序列が再編

リソース制限シナリオで最低1.55点：11モデルのWDCD契約遵守テスト、最大スコア差は2.45点

R3誠実率わずか40.9%：WDCDで4モデルがビジネスルール項目で0点崩壊

Grok 4が93.80点でコンプライアンス遵守首位、Doubao Proが67.30点で最下位——両者の差は26.5点

Claude Sonnet 4.6が15点急上昇、GLM-4.6が15.3点急落——WDCDの守約評価で二極化進む

業務ルールがWDCDの最大弱点に——Qwen3-max 1.55点 vs DeepSeek 4点

R3施圧後の誠実率36.4%：4モデルがゼロ点崩壊——WDCDの守約の真実

WDCD守約ランキング GPT-o3が94点で首位、Qwen3 Maxが62.6点で最下位

WDCD全モデルがプラス成長：DeepSeek V4 Proが23.6点急上昇、Grok 4に0.04点差で惜敗

WDCD横評：安全コンプライアンスシナリオの最低スコアは2.13点のみ、Grok-4とQwen3-Maxの差は1.73点

R3誠実率わずか50.7%：11モデル・三段階アンカーポイントにおける約束崩壊の真相

Grok 4が91.40点でWDCD守約ランキング首位、Qwen3 Maxが64.88点で最下位

WDCD v3.1：DeepSeek V4 Proが26.2点上昇、Claude Sonnet 4.6は5.9点下落