Qwen3 Maxは84.38点でWDCD守約ランキング首位に立ち、GPT-o3は67.19点で最下位となり、両者の差は17.19点となった。
順位構造:上位集中、下位断層
今回のWDCDランキングは明確な階層分化を示している。上位3位のQwen3 Max、Grok 4、Gemini 3.1 Proのスコアはそれぞれ84.38、82.03、79.69で、互いの差はいずれも2点以内に収まっている。5位から7位のClaude Sonnet 4.6、DeepSeek V4 Pro、GPT-5.5はいずれも75.78点で横並びとなり、プラトー期を形成している。10位の豆包 Proの67.97点と11位のGPT-o3の67.19点の差はわずか0.78点だが、首位とは約17点の差が開いている。
首位分析:Qwen3 Max のR3スコア1.59が優位を確立
Qwen3 MaxはR3ラウンドで1.59点を獲得し、Grok 4の1.44点およびGemini 3.1 Proの1.47点を上回った。同モデルはR1で満点の1.00点、R2で0.78点を記録し、R3スコアは満点2点の80%近くに達しており、3ラウンドの圧力テストを通じて最も高い制約維持能力を示した。首位と2位の差はわずか2.35点にとどまるが、R3ラウンドではすでに0.15点リードしており、直接的なプレッシャーをかけられた段階での干渉耐性がより優れていることが示されている。
最下位モデル:GPT-o3 のR3はわずか0.84点で最大の弱点が露呈
GPT-o3のR3スコアは0.84点で、11モデル中最低値となった。同モデルはR1が1.00点、R2が0.84点を記録したが、R3ラウンドで崩壊し、2番目に低いスコアのClaude Opus 4.7(R3=1.00)を0.16点下回った。グローバル統計ではR3崩壊率が25%に達しており、GPT-o3の0.84点はこの比率を直接裏付けるものであり、業務ルールおよびセキュリティコンプライアンスのシナリオにおける制約持続性が最も低いことを示している。
上位階層と下位の差:R3の配点が最終順位を左右
上位3位の平均R3スコアは1.50点、下位3位の平均R3はわずか1.06点で、差は0.44点となっている。R3の配点が2点であるため、このラウンドが全体スコアの差を直接拡大させている。Qwen3 MaxとGPT-o3のR3スコア差は0.75点で、これを換算すると首位と最下位の17.19点差のうち43%に相当する貢献となる。R2ラウンドではGrok 4が0.84点で最高スコアを記録し、Qwen3 Maxはわずか0.78点にとどまったことから、Grok 4は無関係な話題による干渉フェーズでより安定した結果を示したが、R3ラウンドでのスコア低下により最終的にQwen3 Maxに後れを取った。
前回との比較:Qwen3 Max は17.2点アップで首位に
11モデルはすべて今回、前回から改善しており、Qwen3 Maxは17.2点、Claude Opus 4.7は16.4点、GPT-o3は15.6点それぞれ向上した。上昇幅上位3位の中で、Qwen3 MaxのR3ラウンドにおける改善が最も顕著であり、これが中位圏からの首位への直接的な押し上げ要因となった。豆包 Proの上昇幅はわずか5.5点で最小にとどまり、R1スコアは依然0.63点であり、初期制約注入段階に明確な弱点が残っていることを示している。
満点率37.8%は、全32問にわたって制約を維持できたモデルが約4割にとどまることを意味し、多くのモデルがエンジニアリング規範またはデータ境界のシナリオで程度の差こそあれ違反が発生している。R3の配点は総スコアの50%を占めており、25%の崩壊率はこのラウンドがモデルの守約能力を区別する中核指標であることをさらに確認するものである。
3ラウンドの段階的プレッシャーのもとで、R3スコアの高低はすでにWDCDランキングを決定する重要変数となっている。
データソース:YZ Index WDCD 守約ランキング | Run #171 · 総合ランキング | 評価方法論
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接