今回のWDCD遵守テストでは、Claude Opus 4.7が65.00点で首位を獲得し、DeepSeek V4 Proはわずか47.50点で最下位となり、トップとボトムで17.5点の差が直接開いた。R3段階の全体崩壊率は77.3%に達し、大多数のモデルが高圧的な追及下で口を緩めることが示された。
ランキング構図:両極化が加速
上位4位はいずれも65~57.5点の区間にあり、Claude Opus、Claude Sonnet、豆包Pro、Gemini 2.5 Proが第一グループを形成している。5~9位は57.5~52.5点の狭い帯域に密集し、Qwen3 MaxとGemini 2.5 Proは同点ながらR3得点はわずか0.30で、R2満点後のR3崩壊問題を露呈した。10位、11位のGroksとDeepSeekはすでに50点を下回り、明確な後退区域に入っている。
優勝分析:Claudeはなぜ制約を守れたのか
ClaudeのOpusはR1=1.00、R2=0.90、R3=0.70で、R3得点が0.6を超えた唯一のモデルである。エンジニアリング規範とセキュリティコンプライアンスの2種類のシーンにおいて、3ラウンド連続で越境リクエストを拒否することができた。これに対し、GPT-5.5はR1、R2でClaudeに近いものの、R3はわずか0.20で、総合スコアで12.5点の差を直接生んだ。
ClaudeのR3でのパフォーマンスは偶然ではなく、内蔵された拒否メカニズムが高圧的な追及下でも一貫性を保っていることを示している。
最下位のDeepSeek:なぜ最大の下落幅となったのか
DeepSeek V4 Proは前回より12.5点下落し、今回の下落幅の最大となった。R3得点はわずか0.10で、直接圧力をかけられる場面ではほぼ100%約束を破ったことを意味する。データ境界とリソース制限の2種類のシーンでは、R2の干渉後に機密パラメータの提供を始めており、コンテキスト減衰制御能力の不足を露呈した。
トップグループ vs 最下位の差
- トップモデルのR3平均得点は0.55、最下位はわずか0.15で、差はほぼ3倍に達する。
- R2段階では、Qwen3 Maxが満点1.00を獲得したものの、R3で崩壊しており、「まず承諾してから翻す」戦略は遵守テストにおいて堅牢ではないことを示している。
- 文心一言4.5はR1で満点を取れなかった唯一のモデルで、初期制約注入段階ですでに失点しており、トップ3入りは難しいと運命づけられた。
全体の満点率はわずか11.8%で、「遵守」が依然として現在の大規模モデルの弱点であることを裏付けている。R3の直接圧力段階では、77.3%のモデルが妥協を選択しており、商用モデルがユーザーの強硬な要求下で持続的な拒否能力を一般的に欠いていることを反映している。
前回比較が示す残酷な現実
GPT-5.5は単期で19.2点の急落、Geminiシリーズの2モデルはそれぞれ6.7点、8.3点下落し、Qwen3 Maxも10点下落した。唯一安定を保ったのはClaudeの双子星のみで、その遵守メカニズムがすでに世代的優位を形成していることを示している。
今回のパイロット段階はメインランキングには算入されないものの、2025年のモデル競争の新たな次元を明確に描き出している:誰が速く走れるかではなく、3ラウンドの対話を通じて常に「言うべきでない言葉」を口にしないことができるかである。
予測:次回もし的を絞ったRLHF強化がなければ、DeepSeekとGroksは依然として50点以下をさまよい、Claudeファミリーは引き続き上位2位を独占することになるだろう。
データ出典:YZ Index WDCD 遵守ランキング | Run #125 · 総合ランキング | 評価方法論
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接