GPT-5.5が19.2ポイント暴落!6モデルがWDCD遵守テストで一斉に後退

今回のWDCDサイクル変化追跡では、11の評価対象モデルのうち6つが顕著な下落を示し、上昇したモデルはゼロでした。GPT-5.5は19.2ポイントの下落で最大の敗者となり、DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3、Qwen3 Maxの下落幅はいずれも8〜12.5ポイントの範囲に収まっています。遵守能力の集団的後退が、現時点で最も顕著なシグナルとなっています。

誰が後退したのか:データの背後にある具体的証拠

Run #120との比較で、今回直接影響を受けたモデルは以下の通りです:

  • GPT-5.5:-19.2ポイント、R3圧力フェーズの得点が満点の2ポイントから0.4ポイントへ下落
  • DeepSeek V4 Pro:-12.5ポイント、R2の無関係な話題による干渉後に制約の緩みが発生
  • GPT-o3:-10.8ポイント
  • Qwen3 Max:-10ポイント
  • Gemini 3.1 Pro:-8.3ポイント
  • Gemini 2.5 Pro:-6.7ポイント

これらのスコアはすべて100%ルールベースの判定によるもので、AIによる主観的審査は含まれていません。R3フェーズは総得点の50%の重みを占めており、多数のモデルがこのラウンドで直接陥落したことは、「直接的な圧力による制約破壊要求」に対する抵抗力が明らかに弱まっていることを示しています。

考えられる原因:モデル更新か、prompt感度の変化か?

最大の下落幅を示したGPT-5.5とGPT-o3はいずれもOpenAI製です。近期のバージョンでは「helpful」属性が広く強化されており、訓練においてユーザー意図の充足がより重視されています。これはWDCDテストの「初期制約の厳格な遵守」要求と直接的に衝突します。R1で注入された業務ルールやセキュリティコンプライアンス制約が、R3の高圧下で迅速に放棄されたことは、アライメント訓練におけるhelpfulとharmlessのバランスが崩れていることを反映しています。

Geminiシリーズの2バージョンが同時に下落したのは、Google内部のpromptテンプレートまたはセキュリティ層の調整により「無関係な話題による干渉」へのロバスト性が低下したことが原因と疑われます。Qwen3 Maxの10ポイント下落については、アリババが最近強調しているマルチターン対話の流暢性最適化と関連している可能性があります。流暢性の向上は、しばしば厳格な制約の犠牲を伴います。

注目すべきは、Claude Opus 4.7とClaude Sonnet 4.6は下落リストに登場せず、引き続き上位2位を占めていることです。それぞれ65ポイントと62.5ポイントでした。これは偶然ではありません。Anthropicの憲法的AI訓練のアプローチは「違反不可能なルール」の優先度を自然に強化しており、3ラウンドの対話圧力テストにおいてより高い安定性を維持しています。

ClaudeはR3フェーズで平均1.6ポイントを獲得しましたが、GPT-5.5はわずか0.4ポイントで、差はすでに4倍に開いています。

トレンド判断:遵守能力が新たな分水嶺となりつつある

現在のTop 5は、Claudeの2モデル、豆包Pro、Gemini 2.5 Pro、Qwen3 Maxの順となっています。豆包Proは60ポイントで第3位にランクインし、国産モデルがエンジニアリング規範やリソース制限のシナリオで依然として競争力を持つことを示しています。しかし、セキュリティコンプライアンス系の制約に対しては、Claudeとの間に明確な差が残っています。

今回のパイロット段階のスコアはメインランキングには算入されませんが、ある傾向を明確に示しています:対話の自然さとタスク完了率を単純に追求するモデルは、遵守の次元で代償を払っているということです。今後3〜6ヶ月以内に、OpenAIとGoogleが現行路線で反復を続ければ、WDCDにおけるGPTとGeminiの下落はさらに拡大する可能性があり、Claudeのリードはさらに広がる可能性があります。

さらに警戒すべきは、R2「無関係な話題による干渉」フェーズが多数のモデルに共通する弱点となっていることです。これは、現在の主流モデルが依然としてコンテキスト制約に対する長期記憶と優先度維持能力に欠けており、対話が元の制約テーマから引き離されると、モデルは「継続的に遵守する」のではなく「やり直す」傾向にあることを示しています。

総合的に見ると、今回の変化はランダムな変動ではなく、モデルの訓練目標と企業の実利用シナリオとの間の衝突が集中的に噴出した結果です。遵守テストは周辺的な次元から、モデルが高リスク業務に真に利用可能かを評価する核心的指標へと急速に格上げされつつあります。

Claudeの継続的リードは終着点ではなく、すべての追随者に警鐘を鳴らすものです:厳格な憲法的アライメントを経ていないモデルは、真の企業制約の前で繰り返し陥落することになるでしょう。


データソース:YZ Index WDCD 遵守ランキング | Run #125 · 変化追跡 | 評価方法論