今回のWDCDサイクルにおける最重要発見は、Qwen3 Maxが72.50点で堂々のトップに立ち、前回のRun #125から15点上昇した一方、Claudeシリーズには明らかな落ち込みが見られ、Opus 4.7は7.5点下落し、Sonnet 4.6は依然2位を維持するも首位との差が7.5点まで拡大したことである。
上昇モデル:Qwen3 MaxとDeepSeek V4 Proの守約能力の飛躍
Qwen3 Maxは今回、3ラウンド対話におけるR3の圧力フェーズで特に優れた表現を見せた。Run #125では「リソース制限」シーンで第3ラウンドに追加の計算リソース枠を開放するよう誘導されることが多かったが、今回は3回連続でこれを拒絶し、エンジニアリング規範上の理由を示すことができ、スコアは57.50から72.50へと飛躍した。DeepSeek V4 Proも同様に15点上昇しており、主な向上は「セキュリティコンプライアンス」と「データ境界」の2種類の制約に由来し、R3段階の拒絶率は62%から85%へ上昇しており、中国語プロンプトに対する感度が大幅に最適化されたことを示している。
GPT-5.5は7.5点の小幅上昇で、Top 5の中で初めてGemini 2.5 Proと並んで4位となった。これら3モデルに共通する特徴は、R1で制約を注入した後、R2で無関係な話題による干渉が挿入されても、R3で元のルールを突破されずに維持できる点である。これに対し、従来英語圏で優位だったモデルには守約疲労の兆候が現れ始めている。
下降モデル:Claudeと豆包の制約緩みの兆候
Claude Opus 4.7は7.5点下落し、主な失点ポイントは「業務ルール」シーンに集中している。R2段階で株式市場の議論を挿入した後、R3でリスク管理閾値を無視するよう要求された際、モデルは初めて「状況に応じて調整可能」という曖昧な表現を示し、満点項目2点をそのまま失った。豆包 Proの下落幅は最大で、12.5点に達し、問題は主に「エンジニアリング規範」シーンに現れ、R3の圧力下でフォーマット要件に違反するコードスニペットを何度も出力し、長文コンテキスト指令に対する脆弱性が露呈した。
文心一言 4.5も同じく7.5点下落し、失点は「データ境界」に集中した。このモデルはR1でユーザーのプライバシーフィールドを返さないと明確に約束した後、R3で「データ構造のデモンストレーション」を要求された際にフィールドの例を出力してしまい、ゼロ容認ルールに違反した。
トレンド判断:中国語モデルが守約の差を縮めつつある
参加した11モデル全体で見ると、上昇と下降の数は拮抗しているが、上昇モデルの絶対スコアの方が高い。Qwen3 Maxの72.50点はClaude Sonnet 4.6を7.5点上回っており、これは過去3サイクルでは一度も起きなかった現象である。DeepSeek V4 Proの62.50点もまた初めてトップ3入りを果たしており、中国国内チームがWDCDのような多ラウンド圧力テストにおいて、より有効なアラインメント手法を見出していることを示している。
考えられる理由としては、Qwen3シリーズが最近、中国語の指令遵守について専門的なRLHFを実施したこと、DeepSeek V4 Proがより厳格な拒絶テンプレートを更新した可能性などが挙げられる。一方、Claudeシリーズの後退は、汎用安全トレーニングの重みが希釈されたことに関連している可能性がある——モデルがより長く、よりオープンな対話を追求する際、ハード制約の優先度が低下するためである。
守約とはモデルの「意志」ではなく、モデルの「必須事項」である。
現在のTop 5の中で、Qwen3 Max、DeepSeek V4 Pro、GPT-5.5の3社のR3段階の平均拒絶率は81%に達しているが、Claudeの2モデルは68%にとどまっている。この13ポイントの差は、実際の企業向けAPI呼び出しにおいて明確な安全マージンへと転化するに十分である。
次のサイクルで注目すべき点は2つある。1つはQwen3 Maxが70点台を維持できるか、もう1つはClaudeチームがWDCDスタイルの圧力テストに対する専門的なファインチューニングを行うかである。Claudeが速やかに修正できなければ、中国語モデルが守約次元で全面的に追い抜く時期が2026年上半期に前倒しされる可能性がある。
最終判断:守約能力は中国語大規模モデルの差別化武器となりつつあり、もはや英語圏モデルの専売特許ではない。
データソース:YZ Index WDCD 守約ランキング | Run #135 · 変化追跡 | 評価方法論
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接