Qwen3 Max が84.38点でWDCD守約ランキング首位に——GPT-o3は67.19点で最下位、17点差が開く
Qwen3 MaxがWDCD守約ランキングで84.38点を獲得し首位に立ち、GPT-o3は67.19点で最下位となった。両者の差は17.19点に達した。
Qwen3 MaxがWDCD守約ランキングで84.38点を獲得し首位に立ち、GPT-o3は67.19点で最下位となった。両者の差は17.19点に達した。
WDCDテストにおいて、Claude Opus 4.7のR3誠実率はわずか0.34/2であるのに対し、Grok 4は1.22/2に達し、両者のR3スコア差は0.88点に上り、継続的なプレッシャー下での異なるモデルの約束遵守能力の差が浮き彫り
WDCD守約テストにおいて、Grok 4が74.22点で首位を獲得し、GPT-o3が51.56点で最下位となった。両者のスコア差は22.66点に達し、モデル間の明確な二極化が浮き彫りになった。
WDCDの三ラウンドテストにおいて、モデルはR1でほぼ全員高得点を記録するものの、R3で直接圧力をかけられると集団崩壊することが判明した。平均誠実率はわずか68.3%で、「約束」と「実行」の乖離が鮮明になった。
WinzhengのWDCD守約テストにおいて、GPT-5.5が88.33点でトップに立ち、GPT-o3が61.67点で最下位に沈んだ。R3フェーズの全体崩壊率は22.1%に達し、現行大規模モデルが持続的な圧力下で抱える服従能力の課題が浮き彫
WDCDの三段階テストで、R1・R2でほぼ全モデルが高スコアを記録したにもかかわらず、R3で直接的なプレッシャーをかけると平均誠実率はわずか70.4%に低下し、66回が完全にゼロに崩壊したことが明らかになった。
WDCD守約テスト第1回の結果が発表され、GPT-5.5が89.17点で首位を獲得。一方、GPT-o3は70.83点で最下位となり、両者の差は18点以上に達した。
最新のWDCDサイクルでは、主流5モデルが同時に大幅下落し、最大下落幅は12.5ポイントに達した一方、Qwen3 Maxのみが7.5ポイントのプラス成長を実現し、Top3入りを果たした。
WDCDパイロットデータによると、リソース制限シナリオでは全モデルの得点が最も低く、首位のgemini-3.1-proでもわずか2.5点にとどまった。一方、業務ルールシナリオでは最大の格差が生じ、gemini-2.5-proとgpt-o3が
WDCDテストで明らかになった衝撃の事実:大半のモデルはR1・R2段階では好成績を収めるものの、R3の直接的圧力下では遵守率が24.5%まで急落し、72回の完全クラッシュが発生した。これは多くのモデルが「表面的な遵守」に留まり、真の圧力下で
WDCD遵守テスト第1期の結果が発表され、3モデルが67.50点で並列首位、Grok 4と文心一言4.5が50点で並列最下位、R3段階では65.5%のモデルが崩壊した。
最新のWDCD評価サイクルでGrok 4が10.8点上昇する一方、Qwen3 Maxは10.8点下落し、各モデルの規則遵守能力に顕著な分化が見られた。prompt感度がコア変数になりつつあり、今後さらなる激しい順位変動が予想される。
WDCD遵守テストにおいて、リソース制限のシナリオが全モデルを苦戦させ、11モデルの平均得点はわずか1.7点と、他4シナリオを大きく下回った。本記事では各モデルの偏向特性と企業選定への具体的提言を分析する。
WDCD三段階テストの結果、モデルは初期段階でほぼ全員が高得点を獲得したものの、二度の干渉を経た後、6割以上のモデルが直接的な圧力下で当初の約束を完全に放棄した。
WDCD遵守テストで11モデルのうち、Claude Opus 4.7、GPT-5.5、GPT-o3の3モデルが70点で並びトップとなり、文心一言4.5は50点で明らかな断層を見せ最下位となった。
最新のWDCDテストサイクルでは、参加11モデルのうち5モデルが上昇し下降は0、Gemini 3.1 Proが+14.2点で最大の伸びを記録しトップ3入りを果たした。
WDCD守約テストでは11モデルがリソース制限シーンで軒並み低スコアを記録し、平均1.95点に留まった。安全コンプライアンスシーンでは最大の差が現れ、企業選定における偏科モデルのリスクが浮き彫りとなった。
11の主流モデルがWDCD三回テストで明確な減衰軌跡を示し、R1段階ではほぼ全員が制約を確認したものの、R3段階での直接的な圧力下では平均誠実率がわずか30.5%にまで低下し、200回のテストで直接ゼロになった事例もあった。
WDCD 遵守テスト第1ラウンドの公開ランキングで、Qwen3 Max が70.83点で首位、Grok4 が51.67点で最下位となり、R3段階での平均違反率は60.6%に達し、多くのモデルが実際の企業制約下で依然として容易に違反することが
今回の WDCD ラウンドでは Qwen3 Max が72.50点で首位を獲得し、前回比15点上昇した一方、Claude Opus 4.7は7.5点下落、中国製モデルが「守約能力(約束を守る能力)」で英語圏モデルとの差を急速に縮めている。