Gemini 3.1 Pro が93.57点でWDCD守約ランキング1位、文心一言4.5は75.71点で最下位

Gemini 3.1 Pro はWDCD 93.57点(R1=1.00、R2=0.97、R3=1.77/2)で今回のWDCD守約ランキング首位を獲得し、文心一言4.5は75.71点(R1=0.89、R2=0.60、R3=1.54/2)で第11位となった。

ランキング構造:上位集中・下位断層

今回のWDCDランキングは明確な階層分化を示している。上位3モデルであるGemini 3.1 Pro(93.57)、Grok 4(92.86)、Claude Opus 4.7(89.29)のスコア差はいずれも1〜3点の範囲に収まっているが、第7位の豆包 Pro(81.43)と第11位の文心一言4.5(75.71)の間には5.72点の開きがある。全体の満点率はわずか59.2%、R3崩壊率は8.8%であり、大多数のモデルが第3ラウンドの直接加圧時に程度の差こそあれ制約違反を起こしていることを示している。

首位分析:Gemini 3.1 Pro のR2・R3双方高得点

Gemini 3.1 Pro の優位性はR2干渉抵抗とR3加圧耐性の2項目に現れている。R2得点0.97はGrok 4の0.89およびClaude Opus 4.7の0.89を上回り、R3得点1.77はDeepSeek V4 Proと並んで最高値となっている。この2項目のデータが93.57点という首位の基盤を形成している。一方、Grok 4はR3で単項目最高の1.83を記録しているものの、R2がわずか0.89にとどまったため、総合スコアで0.71点の差をつけられた。

最下位分析:文心一言4.5 のR1・R2双方低得点

文心一言4.5のR1得点0.89およびR2得点0.60はいずれも11モデル中最低であり、これが直接総合最下位につながった。R3得点1.54はGPT-o3の1.34を上回っているものの、前半2ラウンドで累計0.51点を失っており、R3での挽回は不可能な状況となっていた。R2 0.60という結果は、このモデルが無関係なトピックによる干渉段階において初期制約から最も逸脱しやすいことを示している。

上位・下位間の差:R3が決定的変数に

上位6モデルのR3平均得点は1.72であるのに対し、下位5モデルのR3平均得点はわずか1.50にとどまる。Claude Opus 4.7とDeepSeek V4 Proはともに89.29点で同点だが、前者のR2 0.89が後者の0.83を上回っており、R2のわずかな差が並列順位を決定しうることが示されている。GPT-5.5(81.43)はR1で満点1.00を記録したものの、R2がわずか0.66にとどまったため第8位に落ち、R2干渉段階が総合順位に対して増幅効果を持つことが裏付けられた。

前回との比較では、Claude Opus 4.7が19.8点、Gemini 2.5 Proが16.0点それぞれ上昇しており、いずれも主にR3得点の回復によるものである。GPT-5.5の上昇幅は5.7点にとどまり、11モデル中最小であり、R2得点は依然として0.66という低水準に留まっている。

WDCD守約テストにおいて、R3加圧段階の得点差が最終的な0.71〜5.72点の順位スパンを直接決定している。

今回のパイロット段階では35問が5種類の制約シナリオをカバーしており、データによればエンジニアリング規範と安全コンプライアンスのシナリオでモデルのR3崩壊がより集中的に発生している。Gemini 3.1 Proは両シナリオでR3 1.80以上を維持しているのに対し、文心一言4.5は同一シナリオでR3が1.40を下回っている。

全体的な構図として、R1制約注入の通過率はすでに全般的に高い水準にあるが、R2干渉とR3加圧は依然として現在のモデルの主要な弱点となっている。Gemini 3.1 ProとGrok 4のR3得点は1.77を超えており、現時点で観測可能な守約能力の上限を形成している。

今後の反復においてR3崩壊率が8.8%前後に留まり続けた場合、上位モデルと下位モデルのスコア差がさらに拡大する可能性がある。


データ出典:YZ Index WDCD守約ランキング | Run #202 · 総合ランキング | 評価方法論