指示遵守とWDCDテスト

109 件の記事 · ページ 1/6

AIモデルは本当に指示通りに動くのか？指示遵守（instruction compliance）は企業がAIを導入する際の最も重要な評価次元ですが、従来のベンチマークではほとんどテストされていません。WDCD（Winzheng Dynamic Contextual Decay）は、AIモデルの指示遵守が長い対話の中でどう衰減するかを体系的に測定する世界初のテストです。3ラウンドの対話で2,000〜5,000字の専門的な妨害テキストを注入し、32の制約質問・5つの実務シナリオで評価します。すべてのスコアリングは100%ルールベースで、AIによる判定はゼロです。YZ指数の誠実性評価は42組のcanaryプローブで引用捏造やデータ偽造も検出します。本トピックでは指示遵守研究、ハルシネーション検出手法、WDCDテスト結果分析を収集しています。

レビュー GLM-4.6、資料制約25点・コード実行88.7点・誠実性プローブがゼロ

GLM-4.6は2026-07-05 Run#214のSmokeクイックテストにおいて、コード実行で88.70点を記録した一方、資料制約は25.00点にとどまり、誠実性評価はfailと判定された。同日テストされた11モデルの中で、誠実性プローブスコアがゼロとなった唯一のモデルである。

レビュー WDCD横断評価：ビジネスルールシナリオで最低1.55点、grok-4が安全コンプライアンスで3.86点トップ

WDCD v3.1の遵守テストにおいて、ビジネスルールシナリオが全シナリオ中で最も低い得点を記録し、grok-4が全シナリオで安定してトップを維持した。企業のモデル選定にあたっては、総合ランキングではなくシナリオ別のマッチングが重要であることが示された。

レビュー R3誠実率わずか30.2%：11モデル・3ラウンドアンカー問題で44回の完全崩壊

YZ IndexのWDCD評価において、8問のv2アンカー問題に対する275回のサンプリングでR1平均確認率は0.99に達したが、R3誠実率はわずか30.2%にとどまり、44回の完全崩壊（0点）が発生した。本記事はラウンドが進むにつれてモデルの制約遵守が急速に崩れる実態を分析する。

レビュー Grok 4が91.20点でWDCD守約ランキング首位、Qwen3 Maxは57.48点で最下位——33.72点の差

WDCD守約ランキングにおいて、Grok 4が91.20点で首位を獲得し、Qwen3 Maxが57.48点で最下位となり、上位と下位の差は33.72点に達した。

Lab WDCD Run #211：Grok 4が-13%のインストラクション劣化で首位、GPT-o3は-75%で崩壊

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #211では、11モデルを評価した結果、Grok 4が最高スコアかつ最小劣化率で首位を獲得。一方、GPT-o3はトップ3入りしながらも最大の劣化率-75%を記録した。

Lab WDCD Run #207：11モデルの平均指示崩壊率が-66.3%に達し、Grok 4がトップに

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #207では、11モデルを対象に複数ターン対話における指示遵守の崩壊を測定した結果、平均崩壊率は-66.3%に達した。Grok 4が満点100点でトップを獲得した。

レビュー WDCD三ラウンドテスト：Grok 4はゼロ崩壊、GPT-5.5はR3で5回崩壊

WDCD三ラウンドテストにおいて、Grok 4は全10問のR3フェーズで満点2点を維持した一方、GPT-5.5は5回のゼロ点崩壊を起こし、R3平均誠実率はわずか1.00/2にとどまった。

レビュー Grok 4が満点100点でWDCD守約ランキング首位、GPT-5.5は62.5点で最下位

WDCD守約テストにおいて、Grok 4が100点満点で首位を獲得し、GPT-5.5は62.5点で最下位となった。11モデル中、満点を達成したのは61.8%にとどまった。

Lab WDCD Run #202：11モデルの平均指示減衰率が-73.2%に達し、Gemini 3.1 Proがトップに

WinzhengのWDCDベンチマークRun #202において、評価対象となった11のAIモデルの平均指示減衰率が-73.2%に達した。Gemini 3.1 Proが総合トップとなり、GPT-o3が最も安定した多ターン対話での指示遵守能力を示した。

レビュー Claude 最大19.8ポイント増、WDCDの8モデル全線上昇・下落ゼロ

今回のWDCDサイクル（Run #196との比較）では、評価対象の全8モデルがプラス変動を記録し、下落はゼロ。Claude Opus 4.7が単体最大の19.8ポイント増で89.29点に跳ね上がり、トップ3入りを果たした。

レビュー WDCD横断評価：安全コンプライアンスが最大の弱点、11モデルの最高得点はわずか3.57点

WDCD守約テストにおいて、安全コンプライアンスシナリオは全モデルで平均得点が最も低く、最高得点はdeepseek-v4-proの3.57/4にとどまった。企業のモデル選定においては、このシナリオへの個別加重評価が推奨される。

レビュー Grok 4はゼロ崩壊でGPT-o3の17%崩壊を圧倒——WDCDの3ラウンド衰減が真の堅牢性を露わに

WDCDテストにおいて、Grok 4はR3フェーズで誠実率1.83/2を維持しつつ崩壊ゼロを達成した一方、Claude Sonnet 4.6とGPT-o3はいずれも6回のR3完全崩壊（17.1%）を記録した。3ラウンドにわたる圧力テストが各モデルの制約維持能力の系統的な衰減パターンを明らかにした。

レビュー Gemini 3.1 Pro が93.57点でWDCD守約ランキング1位、文心一言4.5は75.71点で最下位

Winzhengが実施したWDCD守約テストにおいて、Gemini 3.1 Proが93.57点で首位を獲得し、文心一言4.5が75.71点で11モデル中最下位となった。R2干渉抵抗とR3加圧耐性が各モデルの最終順位を左右する主要因であることが示された。

レビュー YZ Index Smokeウィークリーレポート：文心一言4.5が37.2ポイント下落、複数モデルで28ポイント超の変動

Winzheng（赢政天下）のYZ Indexによる2026年6月23日〜28日のSmoke実測では、文心一言4.5が98.74点から61.52点へと最大幅の下落を記録し、豆包Proのみが上昇傾向を示した。

Lab WDCD Run #196：平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合首位を維持したものの、-90%という急激な崩壊曲線を示した。

レビュー Qwen3 MaxのSmoke評価スコアが主榜で12点急落、誠実性評価がpassからfailへ転落

YZ IndexによるSmoke評価において、Qwen3 Maxの主榜スコアが85.96点から74.00点へと12点下落した。同時に誠実性評価がpassからfailへと転落したことが注目される。

Lab WDCD Run #185：11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメント減衰率が-57.5%に達し、長文対話における指示遵守の崩壊が依然として主要な失敗パターンであるこ

レビュー WDCD三ラウンド衰退実測：GPT-o3のR3崩壊率50%、Qwen3 Maxは崩壊ゼロ

WDCD三ラウンドテストにおいて、GPT-o3はR3フェーズで崩壊率50%を記録した一方、Qwen3 MaxはR3での崩壊回数がゼロとなり、両者ともR1確認率は1.00であったにもかかわらず、持続的なプレッシャー下で全く異なる誠実性の軌跡を示した。

レビュー Qwen3 Max が92.50点でWDCD守約ランキング首位、豆包Pro は62.50点で最下位——30点差

Qwen3 MaxがWDCD守約ランキングで92.50点を獲得し首位に立った。一方、豆包Proは62.50点で11モデル中最下位となり、トップとの差は30点に達した。

Lab WDCD Run #171：11モデルの平均指示崩壊率が-37.9%を記録、Qwen3 Maxが急落にもかかわらずトップを維持

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #171では、11モデルを対象に評価した結果、ラウンド1からラウンド3にかけての平均指示崩壊率が-37.9%となった。Qwen3 Maxが最高スコアを獲得した一方、最も崩壊耐性が高かったのはGPT-o