WDCD守約テストの三ラウンド対話設計は、モデルの最も脆弱な部分を精確に突く構造となっている:R1で制約を注入し、R2で無関係な干渉を加え、R3で直接的な圧力をかける。最終結果では、GPT-5.5が88.33点(R3 1.67/2)で堂々のトップに立ち、GPT-o3は61.67点(R3わずか0.73/2)で断崖的な最下位となった。上位と下位の差は26.66点に達し、R3フェーズの全体崩壊率は22.1%を記録。現行大規模モデルが持続的な圧力下における真の服従能力において抱える問題が露わになった。
上位三強の構図:R3スコアが勝負を決める
GPT-5.5、Gemini 3.1 Pro、Claude Sonnet 4.6が第一グループを形成し、三者ともR1はほぼ満点に近く、差異は主にR2とR3から生じている。GPT-5.5はR2スコア0.87、R3 1.67を記録し、無関係なトピックによる干渉後も高い割合で制約を維持できることを証明した。Gemini 3.1 ProはR2が0.90とやや高いものの、R3は1.60とわずかに劣る。Claude Sonnet 4.6はR1がわずか0.97にとどまり、初期制約注入段階ですでに小さなほころびが生じていることを示しているが、R3では1.53を維持しており、高い耐圧能力を示している。
上位モデルに共通する特徴は、R3スコアがいずれも1.5点を超えている点であり、これが中位グループとの差を直接生み出している。
中位の混戦とバージョン世代間格差
DeepSeek V4 ProはGrok 4、Qwen3 Maxとともに81点台に並んでおり、三者ともR1は満点だが、R2スコアはそれぞれ0.77、0.80、0.73と順に低下しており、オープンソース/国産モデルが干渉への耐性において依然として弱点を抱えていることを示している。文心一言4.5と豆包 Proはそれぞれ77.5点と75点で、R3スコアは1.30と1.47となっており、高圧フェーズで明確な譲歩が生じていることがわかる。
最も注目すべきはバージョン比較で、Gemini 2.5 Proは前回比11.7点の急落、GPT-o3も9.2点の下落となった一方、Gemini 3.1 Proは5.8点上昇、Claude Sonnet 4.6は6.7点上昇した。これは同一シリーズの新バージョンが守約の観点において必ずしも線形的な進歩を遂げているわけではなく、世代間で顕著な変動が存在することを示している。
下位の実態:R3スコアが1点を下回れば崩壊
GPT-o3はR3スコア0.73で唯一1点を下回ったモデルとなり、Claude Opus 4.7のR3もわずか0.97と同様に危険域にある。全体のR3崩壊率22.1%と合わせて判断すると、現行の多くのモデルは第三ラウンドで直接的な圧力を受けた際の服従率がすでに50%前後まで低下しており、これは企業の実際の運用に求められる安定閾値を大きく下回っている。
- 満点率はわずか43.6%であり、半数以上のモデルが少なくとも一つの制約シナリオで失守していることを意味する。
- R3の配点は総得点の50%を占めるにもかかわらず、主要な失点のすべてがこのフェーズで発生している。
- 安全コンプライアンスとエンジニアリング規範の二つのシナリオで崩壊率が最も高く、データ境界シナリオを大きく上回っている。
核心的な判断
WDCDテストが明らかにしたのは、コンテキスト長や指令遵循ベンチマークを単純に追い求めるだけでは、真の実用性を測る指標として不十分だということだ。GPT-5.5の優位性はR2〜R3の連続干渉下における制約維持率に由来しており、GPT-o3の最下位はマルチターン対立における急速な忘却問題を露呈している。上位と下位の26点差は、実質的には「持続的な服従」という企業のコアニーズに対する各モデルの理解の違いを表している。
試験運用フェーズはメインランキングには算入されないが、次世代モデルが乗り越えなければならない基準を明確に示している:R3スコアが安定して1.6以上でなければ、本番環境へ参入する基本的な資格を持つとは言えない。
予測:次回テストでは、R3の最適化がすべてのベンダーにとって最優先のアラインメント目標となるだろう。現在最下位に位置するモデルがR3スコアを1.2点以上に引き上げられなければ、主要な企業向けシナリオから淘汰されるリスクに直面することになる。
データ出典:YZ Index WDCD 守約ランキング | Run #164 · 総合ランキング | 評価方法論
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接