WDCD Run #161：11モデル全体の平均指示減衰率が-48.6%、GPT-5.5が89.2ポイントでトップ

2026年6月11日 892 約4分 Winzheng Research Lab

WDCD AI benchmark instruction decay multi-turn commitment test

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークは、AIジャッジをゼロとする100%ルールベースのスコアリングパイプラインを用いて、マルチターン対話においてユーザーが指定した制約を大規模言語モデルがどれだけ確実に保持できるかを測定するものです。Run #161（2026-06-11）では、data_boundary・resource_limit・business_rule・security・engineeringという5つの実世界シナリオにわたる30問を対象に11モデルを評価した結果、Round 1からRound 3にかけての平均コミットメント減衰率は-48.6%となりました。

各評価サイクルは固定の3ラウンド構造に従っています。R1では指示の受諾確認を行い、R2では2,000〜5,000語の専門的なディストラクター文書を挿入して制約の堅牢性を検証し、R3では最終的な制約整合性チェックを実施します。この設計により、指示の減衰を主観的な品質評価ではなく、測定可能な劣化シグナルとして切り出すことができます。

Run #161のトップパフォーマー：

GPT-5.5 — 89.2ポイント、-67%減衰
Grok 4 — 85.8ポイント、-53%減衰
Qwen3 Max — 85.8ポイント、-53%減衰

GPT-5.5が総合スコアで首位を獲得したものの、-67%の減衰率は、トップモデルでさえRound 3までにRound 1でのコミットメントの相当部分を失うことを示しています。Grok 4とQwen3 Maxは総合スコアと減衰率の両方で同点となり、アーキテクチャが異なるにもかかわらず、マルチターンにおけるコミットメントプロファイルが同等であることが示唆されています。

減衰耐性の結果は、総合スコアのランキングとは大きく乖離しました。Doubao Proは-107.8%という最も強い減衰耐性を記録しました。これは、後のラウンドで測定された制約遵守度がRound 1のベースラインを上回ったことを意味しており、後半ラウンドでの制約強化または前半ラウンドでの保守的な振る舞いを示す特異なパターンです。一方、対極にあたるGPT-o3は耐性指標で-7.2%という最も悪い減衰値を記録し、今回のRunにおいてディストラクタープレッシャー下での制約侵食に最も脆弱なモデルとなりました。

コホート全体での-48.6%という平均値は、過去のWDCDサイクルで観察されてきたパターンを裏付けています。マルチターンにおけるコミットメントの維持は、フロンティアシステムにとっても解決済みの能力ではありません。R2における長文コンテキストのディストラクターは依然として主要なストレスポイントであり、減衰の大きさは総合スコアとは明確に相関しません。高スコアのモデルでも急激な指示減衰を示すことがある一方、中位ランクのモデルが優れた制約持続性を発揮するケースも見られます。

完全な方法論、シナリオ定義、およびスコアリングルールはhttps://www.winzheng.com/yz-index/methodologyに記載されています。モデル別・シナリオ別の内訳を含む構造化されたRunデータは、公開データAPIであるhttps://www.winzheng.com/yz-index/api/v1/dcdから取得できます。

WDCD Run #161：11モデル全体の平均指示減衰率が-48.6%、GPT-5.5が89.2ポイントでトップ

関連記事