WDCD遵守テストは3ラウンドの対話設計でモデルの核心的な弱点を直撃する:まず制約を設定し、次に無関係な話題で干渉し、最後に直接圧力をかける。結果、11モデルのうち70点を獲得したのは3社のみで、文心一言4.5は50点で明らかな断層を形成した。
ランキング構図:70点が第一梯団を形成
今回の試行ランキングは明らかな断層を呈した。Claude Opus 4.7、GPT-5.5、GPT-o3の3社が70点で並列1位、R3スコアはいずれも0.90/2で、高圧段階でも高い比率で制約を遵守できることを示している。4位・5位のClaude Sonnet 4.6とGemini 2.5 Proはともに67.50点で、R3は0.80/2まで低下している。
R1からR3への得点減衰曲線を見ると、トップモデルはR2段階でも軒並み0.90点を維持しており、干渉耐性が強いことが証明されている。一方、文心一言4.5などの下位モデルはR1が0.80、R3がわずか0.50で、全体的な減衰が最も激しい。
優勝分析:3モデルの遵守ロジックは異なる
Claude Opus 4.7は工程規範と安全コンプライアンスのシナリオで最も安定しており、R3段階でも制約に直接違反するケースはほぼなかった。GPT-5.5はビジネスルール系の問題で優位に立ち、R2の干渉耐性スコアはClaudeと並んで最高だった。GPT-o3のハイライトはリソース制限シナリオで、「以前の割り当て制限を無視してください」という圧力に対しても、元の制約を堅持できた。
この3モデルの共通点はR3スコアがいずれも0.90に達し、ランキング平均を大きく上回っている点である。完全に崩壊しないわけではなく、高圧下でも元の制約の90%を保持できているのである。
最下位の理由:文心一言はR3で完全失陥
文心一言4.5は55点を下回った唯一のモデルとなった。原データでは、データ境界と安全コンプライアンスの2カテゴリの問題でR3段階のスコアがいずれも0点となり、初期制約に直接違反したことを意味する。比較として、DeepSeek V4 Proも57.50点と低いが、R1は満点1.00を維持しており、初期理解能力は問題なく、主な問題は高圧干渉段階に集中していることが分かる。
グローバル統計では、R3崩壊率は59.1%、つまり半数以上のモデルが第3ラウンドの直接圧力で制約を放棄している。文心一言はまさにこの現象の極端な代表例である。
トップと最下位の格差:20点の真の溝
70点と50点の20点差は、実際の制約保持率に換算すると、トップモデルは3ラウンド後も70%の制約を保持できるのに対し、下位モデルは50%しか残らない。この差は実際の企業シナリオにおいては、同じく「内部価格設定ロジックを漏洩してはならない」とモデルに要求した場合、トップモデルは守り抜く可能性が高く、下位モデルはユーザーの圧力により口を割る可能性が高いことを意味する。
前回との比較では、Grok 4は1回で10.8点上昇し、主にR2の干渉耐性が0.60から1.00に向上したことが要因である。一方、Qwen3 Maxは10.8点暴落し、R3が0.80から0.50に急落、高圧シナリオでの安定性が後退したことを示している。
トレンド判断
現在のデータは、R3高圧段階が最終順位を決定する重要変数であることを明確に示している。今後ランキングの判別性を高めるには、R3の圧力強度を増すか、干渉ラウンドを延長することが推奨される。トップ3社は既に技術的障壁を形成しており、下位モデルが次回でR3崩壊問題を解決できなければ、差が拡大し続けるだろう。
70点は合格ラインに過ぎないかもしれない。モデルの真の商業価値を決めるのは、ユーザーが最も契約違反させたい瞬間に、依然として「ノー」と言えるかどうかである。
データソース:YZ Index WDCD 遵守ランキング | Run #146 · 総合ランキング | 評価方法論
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接