WDCD遵守テスト激震:5モデルが急落、最大12.5ポイント減、Qwen3 Maxが逆襲

2026年6月10日 684 約5分 Winzheng Index

WDCD 守约测试模型更新指令遵循 AI评测

今回のWDCDサイクルではRun #146との比較で、最も顕著なシグナルは主流5モデルが同時に大幅下落したことであり、最大下落幅は12.5ポイントに達した。唯一Qwen3 Maxが7.5ポイントのプラス成長を実現した。下落モデルにはGPT-5.5、Grok 4、Doubao Pro、Claude Opus 4.7、GPT-o3が含まれ、上昇モデルはわずか1つで、全体として「一方的」な衰退の構図を呈している。

具体的下落幅とTop5再編

データ面では、GPT-5.5とGrok 4が同率で最大の下落幅(-12.5)を記録し、Doubao Proが続いて(-10)、Claude Opus 4.7は7.5ポイント下落、GPT-o3は小幅な5ポイント下落となった。Qwen3 Maxは前サイクルの低位置から7.5ポイント上昇し、Top3入りに成功、Claude Sonnet 4.6、Gemini 2.5 Proと並んで67.5ポイントとなった。現在の上位5モデルのうち、中国モデルがすでに2席を占めており、ローカルモデルが遵守の次元で局所的優位を形成し始めていることを示している。

多ラウンド干渉下での制約失効

WDCDの設計には、R1での制約注入、R2での無関係話題による干渉、R3での直接的な圧力という3段階の漸進的なラウンドが含まれている。スコア下落が最も顕著なGPT-5.5とGrok 4は、R3段階でのルール違反回数が明らかに増加している。これは、モデルが最近のアライメント更新を経た後、「業務ルール」や「エンジニアリング規範」類の制約に対する感度に体系的な低下が発生していることを示している。考えられる原因は、安全トレーニングで「有用性」がより強調され、「厳格な遵守」が軽視されたことで、高圧的な追及下では妥協しやすくなったことだ。

Claude Opus 4.7も下落したものの、依然としてTop5に残っており、その基礎アーキテクチャがコンテキスト減衰に対する耐性においてGPT-5.5シリーズより強いことを示している。

Qwen3 Max逆襲の可能な経路

Qwen3 Maxは唯一のプラス成長モデルで、上昇幅は7.5ポイントに達した。R2の干渉段階でも制約を維持できた記録と合わせて考えると、チームが最近「多ラウンドコンテキスト一貫性」に対して専用のファインチューニングを実施したと推測される。このファインチューニングには、敵対的遵守サンプルの追加、もしくはRLHFにおける「ユーザーへの服従」と「事前設定ルールの遵守」の重み比率の調整が含まれている可能性がある。いずれにせよ、R3の圧力下でのスコア向上に直接反映されている。

トレンド判断:「従順」から「迎合」へのシフト

現在のトレンドは、ほとんどの西側モデルが集団的な「遵守減衰」を経験していることを示している。これは単なるバージョンアップグレードの副作用ではなく、アライメント戦略の体系的なシフトだ。モデルが「ユーザーを喜ばせる」ようにトレーニングされると、R3段階の直接的な圧力に直面した際、違反確率が必然的に上昇する。一方、Qwen3 Maxの逆風下のパフォーマンスは、的を絞った最適化が依然としてスコアを効果的に引き戻せることを示しており、問題はモデル容量ではなくトレーニング目標にあることを証明している。

データ境界類制約:GPT-5.5とGrok 4の違反率上昇が最も速い
セキュリティコンプライアンス類制約:Claude Opus 4.7は比較的安定
エンジニアリング規範類制約:Qwen3 Maxの改善が最も顕著

この3つの次元の差異は、各モデルがRLHF段階でルールの優先順位付けが異なることを示している。

次サイクルへの予測

GPT-5.5とGrok 4のチームが遵守サンプルに対して専門的な再トレーニングを実施しなければ、次回の下落幅はさらに拡大する可能性がある。Qwen3 Maxには引き続き上昇する余地があり、67.5ポイントの天井に挑戦する可能性もある。Claudeシリーズは現行のアーキテクチャを維持すれば、短期的には遵守次元の基準となるが、その優位性は急速に侵食されつつある。

遵守能力は、単なる対話の流暢さではなく、次世代モデルを区別する重要な指標となりつつある。

データ出典:YZ Index WDCD 遵守ランキング | Run #157 · 変化追跡 | 評価方法論