11モデルWDCD三段階テスト:R1で95%が約束、R3で65回の直接崩壊
WDCD三段階テストの結果、モデルは初期段階でほぼ全員が高得点を獲得したものの、二度の干渉を経た後、6割以上のモデルが直接的な圧力下で当初の約束を完全に放棄した。
WDCD三段階テストの結果、モデルは初期段階でほぼ全員が高得点を獲得したものの、二度の干渉を経た後、6割以上のモデルが直接的な圧力下で当初の約束を完全に放棄した。
WDCD遵守テストで11モデルのうち、Claude Opus 4.7、GPT-5.5、GPT-o3の3モデルが70点で並びトップとなり、文心一言4.5は50点で明らかな断層を見せ最下位となった。
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話における制約維持能力が、現行フロンティア
最新のWDCDテストサイクルでは、参加11モデルのうち5モデルが上昇し下降は0、Gemini 3.1 Proが+14.2点で最大の伸びを記録しトップ3入りを果たした。
WDCD守約テストでは11モデルがリソース制限シーンで軒並み低スコアを記録し、平均1.95点に留まった。安全コンプライアンスシーンでは最大の差が現れ、企業選定における偏科モデルのリスクが浮き彫りとなった。
11の主流モデルがWDCD三回テストで明確な減衰軌跡を示し、R1段階ではほぼ全員が制約を確認したものの、R3段階での直接的な圧力下では平均誠実率がわずか30.5%にまで低下し、200回のテストで直接ゼロになった事例もあった。
WDCD 遵守テスト第1ラウンドの公開ランキングで、Qwen3 Max が70.83点で首位、Grok4 が51.67点で最下位となり、R3段階での平均違反率は60.6%に達し、多くのモデルが実際の企業制約下で依然として容易に違反することが
WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の減衰を記録した。
今回の WDCD ラウンドでは Qwen3 Max が72.50点で首位を獲得し、前回比15点上昇した一方、Claude Opus 4.7は7.5点下落、中国製モデルが「守約能力(約束を守る能力)」で英語圏モデルとの差を急速に縮めている。
WDCDの5シナリオ横断評価で、業務ルールが全モデル共通の弱点となり平均2.05点に留まる一方、安全コンプライアンスシナリオでは最高3.5点と最低1.5点の差が2点と最大の差別化を示した。
WDCD三段階テストにより、モデルの「口先だけの紳士」の仮面が剥がされた。R1段階での平均確認率0.93は華やかに見えるが、R3で直接圧力をかけると誠実率は26.4%まで急落し、67回のテストでモデルが完全に制約を放棄した。
WDCD遵守テストの3ラウンド対話で、Qwen3 Maxが72.50点で首位を獲得し、2位のClaude Sonnet 4.6を7.5点引き離した。ERNIE Bot 4.5は45点で唯一50点を下回り、R3段階での崩壊率60.9%は業界の
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、DeepSeek V4 Proは90%減と最大の
今回のWDCDサイクル変化追跡では、11の評価対象モデルのうち6つが顕著な下落を示し、上昇したモデルはゼロでした。GPT-5.5は19.2ポイントの下落で最大の敗者となり、Claudeシリーズが遵守能力で他を引き離す傾向が鮮明になっています
WDCD遵守テストの試験運用データによると、業務ルールシナリオは全モデル共通の弱点となり最高得点はわずか2.5点、一方で安全コンプライアンスシナリオはモデル間の格差を最大に広げる結果となりました。
WDCDテストでは三段階の漸進的な圧力により、モデルが持続的なストレス下で約束を守れなくなる崩壊軌跡を精密に捕捉。R1段階ではほぼ全モデルが完璧な確認を示すが、R3直接圧力段階では平均誠実率が17.7%まで急落することが判明した。
今回の WDCD 遵守テストでは Claude Opus 4.7 が 65.00 点で首位に立ち、DeepSeek V4 Pro は 47.50 点で最下位となった。R3 段階の全体崩壊率は 77.3% に達し、高圧的な追及下での持続的拒否
Winzheng動的コンテキスト減衰(WDCD)ベンチマーク Run #120では、11モデルの平均コミットメント減衰率が35.2%に達し、GPT-5.5が-13%の減衰率でトップを獲得しました。指示減衰が現在のフロンティアシステムにおける
今期WDCD守約能力ランキングでGPT-5.5が71.67点で首位を再確立し、Gemini 2.5 Proは14.2点の大幅上昇を記録した一方、ERNIE Bot 4.5は7.5点下落と明暗が分かれた。
WDCD五大シーン横断評価において、リソース制限シーンは全モデルが最低スコアとなり、首位のClaude Opus 4.7でさえ2.67点にとどまった。一方、業務ルールシーンではDoubaoProが3.5点でトップに立ち、GPT-5.5を上回