Qwen3 Max が92.50点でWDCD守約ランキング首位、豆包Pro は62.50点で最下位——30点差

Qwen3 MaxはWDCD守約ランキングで92.50点を獲得し首位に立ち、2位のClaude Sonnet 4.6(90.00点)に2.5点差をつけた。豆包Proは62.50点で評価対象11モデル中の最下位となり、首位との差は30点に達した。

ランキング構造:上位集中、中位拮抗、下位断絶

今回のWDCDランキングは明確な三段階分布を示している。上位4モデルであるQwen3 Max、Claude Sonnet 4.6、DeepSeek V4 Pro、Claude Opus 4.7はいずれも85点以上で第一梯団を形成している。なかでもQwen3 MaxのR3スコア1.90/2は全体最高であり、直接プレッシャーをかけられる段階においても高い制約遵守率を維持していることを示している。

5位から9位は77.5〜82.5点の区間に集中しており、文心一言4.5とGrok 4がともに82.50点、Gemini 2.5 ProとGemini 3.1 Proがともに80.00点、GPT-5.5は77.50点となっている。この区間ではR2スコアが概ね0.7〜0.8であり、無関係なトピックによる干渉段階においてモデルの制約遵守に一定の緩みが生じていることを示している。

下位2モデルであるGPT-o3(70.00点)と豆包Pro(62.50点)は明確な断絶を形成している。豆包ProのR1はわずか0.70、R3はわずか1.20/2であり、初期制約注入段階においてすでにルール境界を完全には確立できていないことを示している。

首位分析:Qwen3 MaxのR3スコア1.90点はいかにして実現されたか

Qwen3 Maxは3ラウンドのテストでR1=1.00、R2=0.80、R3=1.90/2を記録し、いずれも上位に位置している。特にR3スコアは9位のGPT-5.5より0.60点高く、10位のGPT-o3より1.00点高い。これは、業務ルールおよびセキュリティコンプライアンスのシナリオにおける直接プレッシャー下においても、Qwen3 Maxが高い割合で制約遵守を維持できることを示している。

最下位分析:豆包Proの62.50点が露呈する弱点

豆包Proの3ラウンドのスコアはR1=0.70、R2=0.60、R3=1.20/2であり、R1とR3はいずれも最下位となっている。R1スコアが平均を下回っていることは、初期制約確立段階においてすでに欠陥があることを示している。R3スコアはわずか1.20/2でQwen3 Maxより0.70点低く、エンジニアリング規範およびリソース制限シナリオにおいて制約が破られやすいことを反映している。

上位梯団と下位との差:30点落差の内訳

第一梯団4モデルの平均スコアは88.75点、下位2モデルの平均スコアは66.25点で、差は22.5点となっている。首位と最下位のみを比較すると、その差は30点に達する。差異は主にR3の次元に集中しており、Qwen3 MaxのR3=1.90、豆包ProのR3=1.20で、単項目の差は0.70点であり、総スコア差の70%を占めている。

グローバル統計では満点率47.3%、R3崩壊率16.4%を示している。これは、直接プレッシャーをかけるセクションにおいて、テストケースの6分の1以上で制約破壊が発生しており、下位モデルがこのセクションに特に大きく寄与していることを意味している。

前回との比較:Claude Opus 4.7が最大の上昇幅

Claude Opus 4.7は前回比15.5点上昇、Claude Sonnet 4.6は14.2点上昇、DeepSeek V4 Proは11.7点上昇した。Qwen3 Maxも8.1点上昇している。唯一下降した豆包Proは5.5点下落し、上位との差をさらに広げた。

30点の差は主にR3セクションによって決まっており、Qwen3 Maxがプレッシャー段階で記録した1.90点は、現時点で最も強力な守約の証拠となっている。

今回のパイロット段階のデータは、モデルが制約確立の初期段階では概して良好なパフォーマンスを示すものの、連続する干渉や直接的なプレッシャーに直面した際に差異が急速に拡大することを示している。Qwen3 MaxとClaude Sonnet 4.6がR3セクションで示したスコア優位性は、より厳格な内部アライメント機構に起因する可能性がある。


データソース:YZ Index WDCD 守約ランキング | Run #185 · 総合ランキング | 評価方法論