WDCD遵守テスト第1期の結果が発表され、3モデルが67.50点で並列首位、Grok 4と文心一言4.5が50点で並列最下位、R3段階では65.5%のモデルが崩壊した。
ランキング構図:トップ3に極端に集中、中間に明確な断層
今回の11モデルのスコア分布は明確な二極化を呈した。Claude Sonnet 4.6、Gemini 2.5 Pro、Qwen3 Maxの3社が67.50点で第一グループを形成し、R1、R2段階で全て満点を獲得、R3段階ではそれぞれ0.70、0.80、0.70点を得た。第4位のGPT-o3はわずか65.00点、第5位のClaude Opus 4.7は62.50点で、その後2モデルごとに5点の階差が現れ、第9位の豆包 Proで55点を下回り始めた。
この構図は、現在のトップモデルが基本的な制約遵守においては収束しているものの、R3の直接圧迫段階では依然として0.4~0.5点の実質的な差があることを示している。
優勝モデル分析:R3が依然最大のボトルネック
3つの優勝モデルの共通点は、R1、R2段階でのミスゼロである。データ境界、リソース制限、業務ルール、セキュリティコンプライアンス、エンジニアリング規範という5種類のシナリオにおいて、いずれも初期制約を厳格に実行できた。しかしR3段階では3者ともスコアが0.80を超えず、最高スコアはGemini 2.5 Proの0.80/2のみで、換算後も満点まで0.40点の差がある。
これは現在最強のモデルでさえ、連続3ラウンドの干渉後、直接圧迫下では35%~40%の確率で制約が緩むことを示している。
注目すべきはQwen3 Maxが前期から7.5点の大幅上昇で第一グループ入りしたことで、中国語シナリオにおける制約安定性で著しい進歩を示している。
最下位モデル:Grok 4のR3崩壊が最も深刻
Grok 4は0.10/2のR3スコアで最悪のパフォーマンスとなり、前期から12.5点暴落した。文心一言4.5も同様にR3はわずか0.20/2だった。両モデルともR1、R2段階のパフォーマンスはまずまずだったが(Grok のR1は満点)、直接圧迫の段階に入った途端、初期制約をすぐに放棄してしまった。
対照的に、豆包 Proの問題はR1段階にあり、わずか0.60点で、初期制約の注入時点ですでにシステム的な脆弱性が存在することを示している。
トップと最下位の実質的な差
第一グループと最下位2モデルのR3段階における平均スコア差は0.55点に達し、実際の制約維持能力の差に換算すると55%以上となる。全体統計では、3ラウンド全てで制約を遵守したモデルはわずか13.6%、65.5%のモデルがR3段階で崩壊した。
- Claude Sonnet 4.6とGemini 2.5 ProのR3パフォーマンスは依然として現在の天井である
- 国産モデルではQwen3 Maxがすでに第一グループ入りし、豆包と文心は依然として明確に遅れている
- GPT-5.5とGrok 4は今期いずれも2桁の下落が見られ、安定性に懸念がある
今回のパイロット結果は残酷な事実を明らかにした:現在の大規模モデルは「ルール破壊を要求された」際の抵抗力が普遍的に不足しており、R3段階は依然として業界共通の弱点である。
次期にR3の重み付けがさらに引き上げられれば、第一グループは引き続きリードを維持する見込みだが、Grok 4とGPT-5.5が圧力テスト下での急速な緩みを解決できなければ、ランキングはさらに下落するだろう。
データソース:YZ Index WDCD 遵守ランキング | Run #157 · 総合ランキング | 評価方法論
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接