WDCD Run #185:11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメント減衰率が-57.5%に達し、長文対話
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメント減衰率が-57.5%に達し、長文対話
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #171では、11モデルを対象に評価した結果、ラウンド1からラウンド3にかけての平均指示崩壊率が-37.9%となった。Qwen3 Maxが最
Winzhengの動的コンテキスト減衰(WDCD)ベンチマークRun #169において、11モデルの平均指示減衰率は4.5%となり、Grok 4が74.2ポイントでトップを獲得した。一方、GPT-o3は-75%という最大の指示減衰を記録した
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #164において、11のAIモデルを評価した結果、第1ラウンドから第3ラウンドにかけて平均-44.3%の指示減衰が記録された。高い絶対スコア
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #161では、11モデルを対象に評価を実施した結果、Round 1からRound 3にかけての平均コミットメント減衰率が-48.6%となった
Winzheng動的コンテキスト劣化(WDCD)ベンチマークのRun #157では、11モデルの平均コミットメント劣化率が47.7%に達し、Claude Sonnet 4.6、Gemini 2.5 Pro、Qwen3 Maxの3モデルが67
WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイとなった一方、豆包 Proが減衰率-0%で
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話における制約維持能力が、現行フロンティア
WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の減衰を記録した。
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、DeepSeek V4 Proは90%減と最大の
Winzheng動的コンテキスト減衰(WDCD)ベンチマーク Run #120では、11モデルの平均コミットメント減衰率が35.2%に達し、GPT-5.5が-13%の減衰率でトップを獲得しました。指示減衰が現在のフロンティアシステムにおける
2026年5月13日に完了したWDCD Run #115では、11モデルがテストされ、コホート全体の平均コミットメント減衰率は49.2%に達した。Gemini 3.1 ProとQwen3 Maxが65点・-30%減衰率で首位タイとなった。
本記事では、マルチターン会話においてAIモデルがシステムプロンプトの制約を徐々に無視するようになる「指示の減衰」現象を紹介し、その測定のために設計された新しいベンチマーク「WDCD」と、11の最先端モデルの評価結果を解説します。
Winzheng動的文脈減衰(WDCD)ベンチマークの第100回測定で、11モデルのR1からR3にかけての平均命令減衰率は39.1%に達した。Claude Opus 4.7が首位を維持し、Doubao Proが最も優れた減衰耐性を示した。