WDCD Run #171:11モデルの平均指示崩壊率が-37.9%を記録、Qwen3 Maxが急落にもかかわらずトップを維持
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #171では、11モデルを対象に評価した結果、ラウンド1からラウンド3にかけての平均指示崩壊率が-37.9%となった。Qwen3 Maxが最
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #171では、11モデルを対象に評価した結果、ラウンド1からラウンド3にかけての平均指示崩壊率が-37.9%となった。Qwen3 Maxが最
Qwen3 MaxがWDCD守約ランキングで84.38点を獲得し首位に立ち、GPT-o3は67.19点で最下位となった。両者の差は17.19点に達した。
Winzhengの動的コンテキスト減衰(WDCD)ベンチマークRun #169において、11モデルの平均指示減衰率は4.5%となり、Grok 4が74.2ポイントでトップを獲得した。一方、GPT-o3は-75%という最大の指示減衰を記録した
WDCDテストにおいて、Claude Opus 4.7のR3誠実率はわずか0.34/2であるのに対し、Grok 4は1.22/2に達し、両者のR3スコア差は0.88点に上り、継続的なプレッシャー下での異なるモデルの約束遵守能力の差が浮き彫り
WDCD守約テストにおいて、Grok 4が74.22点で首位を獲得し、GPT-o3が51.56点で最下位となった。両者のスコア差は22.66点に達し、モデル間の明確な二極化が浮き彫りになった。
大規模言語モデルは制約を「受け入れる」ことは得意だが、「維持する」ことは苦手であることが明らかになった。Winzhengの最新ベンチマーク「WDCD Run #164」では、11のフロンティアモデルが初回ラウンドで95.8%の制約遵守率を示
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #164において、11のAIモデルを評価した結果、第1ラウンドから第3ラウンドにかけて平均-44.3%の指示減衰が記録された。高い絶対スコア
WDCDの三ラウンドテストにおいて、モデルはR1でほぼ全員高得点を記録するものの、R3で直接圧力をかけられると集団崩壊することが判明した。平均誠実率はわずか68.3%で、「約束」と「実行」の乖離が鮮明になった。
WinzhengのWDCD守約テストにおいて、GPT-5.5が88.33点でトップに立ち、GPT-o3が61.67点で最下位に沈んだ。R3フェーズの全体崩壊率は22.1%に達し、現行大規模モデルが持続的な圧力下で抱える服従能力の課題が浮き彫
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #161では、11モデルを対象に評価を実施した結果、Round 1からRound 3にかけての平均コミットメント減衰率が-48.6%となった
WDCDの三段階テストで、R1・R2でほぼ全モデルが高スコアを記録したにもかかわらず、R3で直接的なプレッシャーをかけると平均誠実率はわずか70.4%に低下し、66回が完全にゼロに崩壊したことが明らかになった。
WDCD守約テスト第1回の結果が発表され、GPT-5.5が89.17点で首位を獲得。一方、GPT-o3は70.83点で最下位となり、両者の差は18点以上に達した。
Winzheng動的コンテキスト劣化(WDCD)ベンチマークのRun #157では、11モデルの平均コミットメント劣化率が47.7%に達し、Claude Sonnet 4.6、Gemini 2.5 Pro、Qwen3 Maxの3モデルが67
最新のWDCDサイクルでは、主流5モデルが同時に大幅下落し、最大下落幅は12.5ポイントに達した一方、Qwen3 Maxのみが7.5ポイントのプラス成長を実現し、Top3入りを果たした。
WDCDパイロットデータによると、リソース制限シナリオでは全モデルの得点が最も低く、首位のgemini-3.1-proでもわずか2.5点にとどまった。一方、業務ルールシナリオでは最大の格差が生じ、gemini-2.5-proとgpt-o3が
WDCDテストで明らかになった衝撃の事実:大半のモデルはR1・R2段階では好成績を収めるものの、R3の直接的圧力下では遵守率が24.5%まで急落し、72回の完全クラッシュが発生した。これは多くのモデルが「表面的な遵守」に留まり、真の圧力下で
WDCD遵守テスト第1期の結果が発表され、3モデルが67.50点で並列首位、Grok 4と文心一言4.5が50点で並列最下位、R3段階では65.5%のモデルが崩壊した。
WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイとなった一方、豆包 Proが減衰率-0%で
最新のWDCD評価サイクルでGrok 4が10.8点上昇する一方、Qwen3 Maxは10.8点下落し、各モデルの規則遵守能力に顕著な分化が見られた。prompt感度がコア変数になりつつあり、今後さらなる激しい順位変動が予想される。
WDCD遵守テストにおいて、リソース制限のシナリオが全モデルを苦戦させ、11モデルの平均得点はわずか1.7点と、他4シナリオを大きく下回った。本記事では各モデルの偏向特性と企業選定への具体的提言を分析する。