multi-turn に関するAIニュース | Winzheng AI ニュース

WDCD Run #185：11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメント減衰率が-57.5%に達し、長文対話

WDCD AI benchmark instruction decay multi-turn

5日前 199

オリジナル

WDCD Run #171：11モデルの平均指示崩壊率が-37.9%を記録、Qwen3 Maxが急落にもかかわらずトップを維持

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #171では、11モデルを対象に評価した結果、ラウンド1からラウンド3にかけての平均指示崩壊率が-37.9%となった。Qwen3 Maxが最

WDCD AI benchmark instruction decay multi-turn

2026年6月14日 203

オリジナル

WDCD Run #169：Grok 4がマルチターン遵守テストでトップ、平均指示減衰率は4.5%に低下

Winzhengの動的コンテキスト減衰（WDCD）ベンチマークRun #169において、11モデルの平均指示減衰率は4.5%となり、Grok 4が74.2ポイントでトップを獲得した。一方、GPT-o3は-75%という最大の指示減衰を記録した

WDCD AI benchmark instruction decay multi-turn

2026年6月14日 162

オリジナル

WDCD Run #164：11のフロンティアモデルにおける平均指示減衰率が-44.3%に到達

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #164において、11のAIモデルを評価した結果、第1ラウンドから第3ラウンドにかけて平均-44.3%の指示減衰が記録された。高い絶対スコア

WDCD AI benchmark instruction decay multi-turn

2026年6月11日 254

オリジナル

WDCD Run #161：11モデル全体の平均指示減衰率が-48.6%、GPT-5.5が89.2ポイントでトップ

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #161では、11モデルを対象に評価を実施した結果、Round 1からRound 3にかけての平均コミットメント減衰率が-48.6%となった

WDCD AI benchmark instruction decay multi-turn

2026年6月11日 355

オリジナル

WDCD Run #157：11モデルの平均指示劣化率が47.7%に到達、トップは3モデルが同点

Winzheng動的コンテキスト劣化(WDCD)ベンチマークのRun #157では、11モデルの平均コミットメント劣化率が47.7%に達し、Claude Sonnet 4.6、Gemini 2.5 Pro、Qwen3 Maxの3モデルが67

WDCD AI benchmark instruction decay multi-turn

2026年6月10日 247

オリジナル

WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ

WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイとなった一方、豆包 Proが減衰率-0%で

WDCD AI benchmark instruction decay multi-turn

2026年6月3日 312

オリジナル

WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話における制約維持能力が、現行フロンティア

WDCD AI benchmark instruction decay multi-turn

2026年5月31日 224

オリジナル

WDCD Run #135：Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に

WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の減衰を記録した。

WDCD AI benchmark instruction decay multi-turn

2026年5月27日 279

オリジナル

WDCD Run #125：平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、DeepSeek V4 Proは90%減と最大の

WDCD AI benchmark instruction decay multi-turn

2026年5月20日 346

オリジナル

WDCD Run #120：11モデルの平均指示減衰率は35.2%、GPT-5.5が-13%でトップに

Winzheng動的コンテキスト減衰（WDCD）ベンチマーク Run #120では、11モデルの平均コミットメント減衰率が35.2%に達し、GPT-5.5が-13%の減衰率でトップを獲得しました。指示減衰が現在のフロンティアシステムにおける

WDCD AI benchmark instruction decay multi-turn

2026年5月17日 345

オリジナル

WDCD Run #115:平均指示減衰率49.2%に達し、Gemini 3.1 ProとQwen3 Maxが首位タイ

2026年5月13日に完了したWDCD Run #115では、11モデルがテストされ、コホート全体の平均コミットメント減衰率は49.2%に達した。Gemini 3.1 ProとQwen3 Maxが65点・-30%減衰率で首位タイとなった。

WDCD AI benchmark instruction decay multi-turn

2026年5月13日 339

オリジナル

指示の減衰：なぜAIは会話の途中でルールを忘れるのか

本記事では、マルチターン会話においてAIモデルがシステムプロンプトの制約を徐々に無視するようになる「指示の減衰」現象を紹介し、その測定のために設計された新しいベンチマーク「WDCD」と、11の最先端モデルの評価結果を解説します。

instruction decay WDCD AI benchmark multi-turn

2026年5月11日 297

オリジナル

WDCD Run #100：11モデル平均の命令減衰率が39.1%に到達、Claude Opus 4.7が首位

Winzheng動的文脈減衰（WDCD）ベンチマークの第100回測定で、11モデルのR1からR3にかけての平均命令減衰率は39.1%に達した。Claude Opus 4.7が首位を維持し、Doubao Proが最も優れた減衰耐性を示した。

WDCD AI benchmark instruction decay multi-turn

2026年5月5日 394

multi-turn に関するニュース

WDCD Run #185：11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ

WDCD Run #171：11モデルの平均指示崩壊率が-37.9%を記録、Qwen3 Maxが急落にもかかわらずトップを維持

WDCD Run #169：Grok 4がマルチターン遵守テストでトップ、平均指示減衰率は4.5%に低下

WDCD Run #164：11のフロンティアモデルにおける平均指示減衰率が-44.3%に到達

WDCD Run #161：11モデル全体の平均指示減衰率が-48.6%、GPT-5.5が89.2ポイントでトップ

WDCD Run #157：11モデルの平均指示劣化率が47.7%に到達、トップは3モデルが同点

WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ

WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

WDCD Run #135：Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に

WDCD Run #125：平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ

WDCD Run #120：11モデルの平均指示減衰率は35.2%、GPT-5.5が-13%でトップに

WDCD Run #115:平均指示減衰率49.2%に達し、Gemini 3.1 ProとQwen3 Maxが首位タイ

指示の減衰：なぜAIは会話の途中でルールを忘れるのか

WDCD Run #100：11モデル平均の命令減衰率が39.1%に到達、Claude Opus 4.7が首位