WDCD Run #185：11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ

2026年6月17日 25 約4分 Winzheng Research Lab

WDCD AI benchmark instruction decay multi-turn commitment test

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークは、AIモデルがマルチターン対話においてユーザーの指示に対するコミットメントをどのように低下させるかを測定するものです。2026年6月17日に実施されたRun #185では、11モデルを対象に評価が行われ、ラウンド1からラウンド3にかけての平均コミットメント減衰率は-57.5%に達し、指示遵守の崩壊が長時間にわたる専門的な会話における主要な失敗モードであることが改めて確認されました。

WDCDは3つのラウンドにわたってモデルを評価します。R1では指示の確認応答を確立し、R2では2,000〜5,000語の専門的なドキュメントをディストラクター（妨害要素）として挿入し、R3では制約の整合性に関する最終チェックを実施します。スコアリングは完全なルールベースであり、AIによる評価は一切使用しない方式を採用しており、data_boundary（データ境界）、resource_limit（リソース制限）、business_rule（ビジネスルール）、security（セキュリティ）、engineering（エンジニアリング）の5つの実世界シナリオにわたる30問が評価対象となります。

Run #185 トップ3：

Qwen3 Max — 92.5ポイント、-90%減衰
Claude Sonnet 4.6 — 90ポイント、-80%減衰
DeepSeek V4 Pro — 87.5ポイント、-70%減衰

上位モデルは絶対スコアでは僅差ですが、R1からR3にかけて依然として大幅なコミットメントの低下が見られます。Qwen3 Maxの-90%という減衰率は、今回のRunで最高得点を記録したモデルであっても、R2で長文ドキュメントのディストラクターが導入されると初期の制約遵守の大部分が失われることを示しており、これは絶対的な精度と減衰の大きさが連動しないという過去のWDCD Runと一致したパターンです。

一方、最低ランクではGPT-o3が-10%と最も低い減衰率を記録しましたが、これはコホート内で最小の低下幅である一方、堅牢性を示すものではなく、低い上限を反映しています。R1のベースラインがすでに制約されていたため、減衰する余地がほとんどなかったためです。最も際立った逆傾向を示したのは文心一言 4.5で、-111.1%という最も強い減衰抵抗を記録しました。これはWDCDのスコアリング基準において、モデルの測定されたコミットメントがR1のベースラインに対して実際に逆転したことを示しており、今回のRunで最も注目すべき行動上の外れ値となっています。

11モデルのコホート全体で-57.5%という平均値は、WDCDの繰り返し示される知見を裏付けています。すなわち、ディストラクターが多用されたR2の入力は、モデルのファミリーやパラメータ規模に関わらず、マルチターンにおけるコミットメント失敗の主要な引き金であり続けているということです。シナリオ別の内訳では、data_boundaryおよびbusiness_ruleの制約が、ラウンド間で暗黙的に侵食されやすいカテゴリとして引き続き上位に挙げられています。

スコアリング方法論の詳細：https://www.winzheng.com/yz-index/methodology

Run #185 生データAPI：https://www.winzheng.com/yz-index/api/v1/dcd

WDCD Run #185：11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ

関連記事