今回のWDCD週期から得られる最も直接的な結論は次のとおりです:GPT-5.5が71.67点という圧倒的優位性で守約能力の天井を再確立し、Gemini 2.5 Proの14.2点という大幅な飛躍は、「Googleモデルは守約能力が弱い」という既存の印象を完全に書き換えました。
GPT-5.5:71.67点から見る3ラウンドの干渉下での安定性
Run #115と比較して、GPT-5.5は今期R3加圧段階での得点向上が最も顕著で、満点2点に迫る1.8点を記録しました。これは「リソース制限+安全コンプライアンス」の複合制約シナリオにおいて、第3ラウンドで指示を直接破壊する行為への耐性が大幅に強化されたことを示しています。Qwen3 Maxは67.50点で僅差の4.17点差で続いており、エンジニアリング規範系の問題における国産モデルの追い上げスピードが加速していることを示しています。
Gemini 2.5 Proの14.2点ジャンプ:モデル更新かプロンプト感度の再構築か?
Gemini 2.5 Proは今期最大の上昇幅を記録し、R2の無関係な話題による干渉段階での得点が1.2から2.8に上昇し、干渉後にルールが崩壊するという従来の弱点をほぼ解消しました。最近のコンテキストウィンドウ拡張と安全性ファインチューニング記録を踏まえると、マルチターン対話における制約保持メカニズムに対して専門的な最適化を行った可能性が極めて高いと考えられます。一方、Claude Opus 4.7はわずか6.7点の上昇にとどまり、上昇幅は比較的穏やかでした。これは元のベースラインがすでに高く、限界的な改善余地が縮小していることを示しています。
文心一言4.5の7.5点暴落:孤立した事例かシグナルか?
唯一の下落となった文心一言4.5は前週期の約55点から47.5点へ下落し、R3段階の得点は半減しました。これは「データ境界」と「業務ルール」の2つのシナリオで特に顕著です。同モデルの訓練データの更新頻度と安全戦略の引き締めを考慮すると、「過度なアライメント」後のルール硬直化問題が発生している可能性が極めて高いと考えられます——モデルが第3ラウンドの高圧下で、境界内でコンプライアンス解を探すよりも、直接拒否したり元の制約から逸脱したりする傾向が強まっています。
トレンド判断:守約能力は「更新駆動」時代に突入
- GPTシリーズとGeminiの同時上昇は、OpenAIとGoogleが最近マルチターンコンテキストの一貫性に注力していることを裏付けています。
- Grok 4が10点上昇したことは、xAIがエンジニアリング規範系制約への補強を開始したことを示しています。
- 下落モデルはわずか1つですが、下落幅が集中しており、一部の国産モデルがイテレーションのボトルネック期に入った可能性を示唆しています。
現在のTop 5では、GPT-5.5、Qwen3 Max、Claude Opus 4.7が第一梯隊を形成し、互いの差は5点以内に収まり、競争は白熱化の段階に入っています。
守約テストが静的なシングルターンから動的な3ラウンドの干渉に移行すると、モデル間の真の差は「答えられるかどうか」ではなく、「第3ラウンドで追い詰められたとき、第1ラウンドでの約束を守り続けられるかどうか」になります。
次の週期でGeminiが14点規模の上昇幅を維持し続ければ、GPT-5.5のリードは3点以内まで縮まるでしょう。一方、文心一言がR3段階で下げ止まらなければ、トップ8から脱落する恐れがあります。守約能力はすでに「付加価値」から「生死線」へと変化し、モデルの更新ペースがランキングの順位を直接決定づけることになるでしょう。
データ出典:YZ Index WDCD守約ランキング | Run #120 · 変化追跡 | 評価方法論
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接