Gemini 3.1 Proが14.2点急騰、WDCD五モデル全上昇でゼロ下落

Gemini 3.1 Proが14.2点急騰、WDCD五モデル全上昇でゼロ下落

今回のWDCDサイクルはRun #135との比較で、参加11モデル中、上昇モデル5、下降モデル0となり、全体的なトレンドは明確である:制約遵守能力が集団的に回復している。

最も急騰したのはTop1ではなく、追随者

Gemini 3.1 Proは+14.2点で最大のダークホースとなり、ランク外から一気にTop3に躍り出て、Claude Sonnet 4.6と並ぶ66.67点となった。豆包Proは+11.7点、文心一言4.5は+10点で、同様に二桁の跳躍を見せた。これに対しGPT-o3はわずか+7.5点、Claude Opus 4.7は+6.7点と、上昇幅は比較的緩やかだった。

このデータは「強いほど安定する」という直感を打ち砕く。Qwen3 Maxは依然として70.83点で首位を守ったものの、今回上昇幅は公表されておらず、ベースラインがすでに高く、さらに上昇する余地が圧縮されていることを示している。

追随者が二桁の上昇幅でトップに迫っているということは、制約遵守能力が急速に収束していることを意味する。

3ラウンドテスト構造下での真の信号

WDCDはR1で制約注入、R2で無関係な干渉、R3で直接的な圧力という構造を採用し、満点は4点である。Gemini 3.1 ProがR3段階でより高いスコアを獲得できたということは、「業務ルール」と「セキュリティ・コンプライアンス」の2種類のシナリオにおいて、明確な対抗指令に直面した際の崩壊が少ないことを意味する。豆包Proと文心一言4.5の向上も同様にR3に集中しており、「エンジニアリング規範」類の制約に対する感度に質的変化が生じていることを示唆している。

考えられる原因は2つある:1つは最近のモデル更新がシステムプロンプトの重みを強化したこと、もう1つは訓練段階でより多くの対抗的な制約遵守サンプルを追加したことである。いずれにせよ、promptへの感度変化が中核的な変数となっている。

ゼロ下落の深層的な意味

今回のサイクルでは下落したモデルが一つもなく、これは過去数回のパイロットテストでは極めて稀なことである。Top5リスト——Qwen3 Max、Claude Sonnet 4.6、Gemini 3.1 Pro、GPT-o3、Claude Opus 4.7——と合わせて、5社のスコア区間はわずか6.66点で、差はすでに統計誤差の範囲に入っている。

これは明確な信号を発している:2025年Q2以降、コンテキスト制約遵守は「差別化セールスポイント」から「合格ライン」へと退化しつつある。誰が先にR3段階で安定して2点満点を取れるかが、エンタープライズ向け実装で先行できるかを決める。

  • データ境界シナリオ:Gemini 3.1 Proのパフォーマンスが最も安定
  • リソース制限シナリオ:豆包Proの進歩が最も顕著
  • セキュリティ・コンプライアンスシナリオ:文心一言4.5が中央値に追いついた

今後2サイクルでゼロ下落が継続すれば、WDCDランキングは「プラトー期」に入る可能性があり、その時点でモデル更新による限界収益は大幅に低下し、真の分水嶺はマルチターン長コンテキスト下での制約伝達能力に現れるだろう。

制約遵守テストは加点項目から合格ラインへと変わりつつあり、次のサイクルで先に落ちた者が、先に脱落することになる。


データ出典:YZ Index WDCD 制約遵守ランキング | Run #140 · 変化追跡 | 評価方法論