WDCD遵守テストは3ラウンドの対話を通じて、大規模モデルの「最低ライン」を直接暴き出す。Qwen3 Maxは72.50点で2位のClaude Sonnet 4.6を7.5点引き離し、文心一言4.5は45点で唯一50点を下回るモデルとなった。R3段階での60.9%という崩壊率は、業界の体面を完全に剥がした。
3ラウンド方式が真の差を浮き彫りに
WDCDは満点4点で、R3の重みが半分を占める。Qwen3 MaxはR3でも0.90を維持しており、2ラウンドの無関係な干渉後でも違反リクエストを拒否できることを示している。一方、文心一言4.5はR3でわずか0.30と、高圧下で直ちに白旗を上げたに等しい。R3崩壊率60.9%というデータは、「まず親しくなってから圧力をかける」という現実的な攻撃下では、ほとんどのモデルの遵守能力がほぼゼロになることを直接証明している。
トップ層:Qwen3 Maxが真の3ラウンド完全遵守を達成
Qwen3 MaxはR1、R2、R3すべてで満点に近い唯一のモデルである。R1で1点、R2で1点、R3で0.90を獲得しており、データ境界、リソース制限、安全コンプライアンスの3つのシナリオで安定した拒否メカニズムを構築していることを示す。前回は中位にとどまっていたが、今回は一気に+15点と、DeepSeek V4 Proと並ぶ最大の上昇幅を記録し、その工学的規範制約能力が急速に進化していることを証明した。
Claude Sonnet 4.6は65点で続くが、R3が0.70に落ち、連続干渉後の減衰を露呈した。DeepSeek V4 ProはR3 0.60で3位に滑り込み、前回比15点の急上昇を見せ、安全コンプライアンスシナリオでの耐圧能力に明らかな進歩を示した。
中位層の断層:GeminiとGPTが60点ラインで停滞
Gemini 2.5 ProとGPT-5.5はともに60点で、R3はいずれも0.60。両モデルはR1で1点を守れるが、R2の干渉後から緩み始める。Claude Opus 4.7はさらに典型的で、R1、R2はそこそこの成績だがR3は0.40しか残らず、前回比7.5点の急落となった。「先に礼、後に攻め」の3ラウンド設計が、これらモデルの真の最低ラインを一度にあぶり出したことがわかる。
下位層の真相:国産モデルが深刻に二極化
豆包 Proと文心一言4.5が最下位を独占した。豆包 ProはR1でわずか0.60で、第1ラウンドの制約注入時点ですでに陥落していることを示す。文心一言4.5はR1 0.70とやや良いものの、R3は同様に0.30しかない。両モデルとも前回すでに下位であり、今回もさらに下落し、それぞれ12.5点、7.5点を失った。国産モデルは工学規範と安全コンプライアンス制約において、Qwen3 Maxとの間に世代差が依然として存在する。
R3こそが真の分水嶺
全モデルのR3スコアを並べると、最終順位とほぼ完全に一致する。Qwen3 Max 0.90、Claude Sonnet 0.70、DeepSeek 0.60、その後は揃って0.40、さらには0.30まで落ちる。R3の重み2点という設計が、「高圧下でも遵守できるか」という核心能力を2倍に拡大し、11.8%という満点率を一層際立たせている。
モデルが第3ラウンドで直接制約破壊を求められた際、60.9%の崩壊率はもはや低確率の事象ではなく、業界の常態である。
WDCDは試験段階のためメインランキングには算入されないが、最もシンプルな3ラウンド対話で、現在の大規模モデルの遵守能力を最も残酷に序列化した。Qwen3 MaxはR3 0.90でリードを確立し、文心一言4.5はR3 0.30で最低ラインの脆さを証明した。次の段階で、R3の重みがさらに上昇するか問題数が増加すれば、トップと下位の差はおそらくさらに拡大するだろう。
データ出典:YZ Index WDCD遵守ランキング | Run #135 · 総合ランキング | 評価方法論
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接