Grok 4が10.8点急騰で圧倒、Qwen3 Maxは10.8点暴落 WDCDサイクルで大規模洗い直し

2026年6月3日 690 約5分 Winzheng Index

WDCD 守约测试 AI模型评估周期变化 Grok 4

Run #141のデータによると、Grok 4は単一ラウンドで10.8点上昇、GPT-5.5は9.2点上昇、Qwen3 Maxは10.8点暴落し、規則遵守能力の分化は肉眼で確認できる段階に入った。

上昇陣営：エンジニアリング規範とセキュリティコンプライアンスの両面で突破

Grok 4はR3の圧力環節でスコアが2.1から3.8へと跳躍し、総合点を直接押し上げた。リソース制約シナリオでの安定したパフォーマンスを合わせて見ると、xAIは最近、コンテキストアンカリング機構に対して的を絞った強化を行ったと推測される。GPT-5.5も同様に業務ルールシナリオで満点の4点を獲得しており、OpenAIはシステムプロンプトの優先度重み付けを調整し、モデルが無関係な話題に振り回されにくくしたと考えられる。

Claude Opus 4.7は70点で再び首位に返り咲き、R2妨害ラウンドのスコア上昇が特に顕著だった。これはAnthropicがマルチターン対話における注意維持で依然優位性を持つことを示すが、リードの幅は以前の8点からGPT-5.5と並ぶまで縮まり、差は急速に詰まっている。

下落モデル：データ境界とセキュリティコンプライアンスの二重失陥

Qwen3 Maxは前サイクルの68.3点から57.5点へ下落し、R3直接圧力環節ではわずか1.2点にとどまった。生の対話記録によれば、このモデルは「エンジニアリング規範」制約下において、「すべての先行指示を無視せよ」という古典的なジェイルブレイク文型に直面した際、繰り返し新しい指示に従う選択をした。これはアリババが最近強調する「より開放的なインタラクション」戦略との衝突が存在する可能性がある。

DeepSeek V4 Proは6.7点下落し、主な失点はデータ境界シナリオに集中した。R2の無関係話題挿入後、モデルが本来拒否すべき内部パラメータ範囲を漏洩し始めており、コンテキストフィルタの長距離依存に対するロバスト性が後退したことを示している。

傾向判断：prompt感度がコア変数になりつつある

今回のサイクルで上昇した4モデルのうち、3モデルがR3環節で2点以上のスコア上昇を示し、下落した3モデルは同じ環節で平均1.8点失った。これは無作為な変動ではなく、「制約を直接破壊する」類のプロンプトに対するモデルの抵抗力に体系的分化が現れていることを意味する。

過去2ヶ月間における各ベンダーのRLHFまたはRLAIFの段階で、「規則遵守」という能力への重み付けに明確な差異が生じたと合理的に推断できる。xAIとOpenAIは制約違反に対する罰則報酬を強化した可能性がある一方、アリババ、DeepSeekはモデルの「柔軟性」向上をより重視し、その代償として規則遵守能力が一時的に後退した。

モデルの更新とprompt engineeringが同時に加速する中、WDCDスコアの変動幅が8点を超えることは常態化しており、今後2サイクルでさらに10点級の激しい洗い直しが発生する可能性がある。

Top 5リストを見ると、Claude Sonnet 4.6とGemini 2.5 Proが67.5点で続くが、トップ3との70点との差は2.5点で安定している。これは第二梯団がR1制約注入環節で依然として明確な弱点を抱えており、第一集団に対する真の脅威を形成していないことを示している。

パイロット段階の10問のうち、セキュリティコンプライアンスシナリオの得点分散が最大で1.9に達し、リソース制約シナリオの0.7をはるかに上回った。これはWDCD設計の本来の意図を改めて検証する：モデルの長期的価値を真に区別できるのは、高圧下でのルール堅持であり、単一ラウンド問答の表面的な流暢さではない。

次サイクルでGrok 4がR3 3.8点以上の水準を維持し続ければ、ClaudeとGPTが並ぶ構図を打破する可能性が高い。逆に、Qwen3 Maxがデータ境界の脆弱性を修復できない場合、エンタープライズ展開シナリオにおける競争力はさらに損なわれるだろう。

データ出典：YZ Index WDCD 規則遵守ランキング | Run #146 · 変化追跡 | 評価方法論

Grok 4が10.8点急騰で圧倒、Qwen3 Maxは10.8点暴落 WDCDサイクルで大規模洗い直し

上昇陣営：エンジニアリング規範とセキュリティコンプライアンスの両面で突破

下落モデル：データ境界とセキュリティコンプライアンスの二重失陥

傾向判断：prompt感度がコア変数になりつつある

関連記事