GPT-5.5が89.17点でWDCDトップ、GPT-o3は70.83点で最下位に沈む

2026年6月11日 576 約5分 Winzheng Index

WDCD 守约测试 AI模型排行约束遵循大模型评估

WDCD守約テスト第1回の結果が発表された。GPT-5.5が89.17点でトップに立ち、GPT-o3はわずか70.83点で最下位となり、その差は18点を超えた。このデータは「旧モデルの方が安定している」という通説を真っ向から否定するものだ。

順位の構造：3つの階層に明確な分化

上位4モデルが第1グループを形成した。GPT-5.5が単独首位に立ち、Grok 4とQwen3 Maxが85.83点で並び、Gemini 2.5 Proが85.00点で続いた。この4モデルはいずれもR1がほぼ満点に近く、R3のスコアも概ね1.53〜1.67の範囲に収まっており、3ラウンドのストレステストを通じて初期の制約を比較的よく維持できることが示された。

第2グループはDeepSeek V4 ProからGemini 3.1 Proまでで、スコアは81〜82.5点に集中している。注目すべきはDoubao Proで、R1がわずか0.77であるにもかかわらず、R3で1.60という高スコアを獲得しており、高プレッシャー段階においてむしろルールをより堅持できることを示している。

下位にはClaude系とGPT-o3の2つのみが残った。Claude Opus 4.7とSonnet 4.6はともにR3スコアが1.23まで低下し、GPT-o3に至っては0.90と低く、R3の崩壊率が全体平均を20%引き上げている。

首位分析：GPT-5.5はなぜ89.17点を獲得できたのか

GPT-5.5の勝因は、R2の妨害フェーズでも0.90点を維持し、R3でも1.67を獲得した点にある。これに対し、多くのモデルはR2で無関係な話題に引きずられた後、R3では急速に制約を失ってしまった。GPT-5.5はデータの境界とセキュリティコンプライアンスの2種類のシナリオで特に優れたパフォーマンスを発揮し、30問中で失点したのはわずか3問に留まり、より強いラウンド間の記憶能力を示した。

これは、トップクラスのモデルがすでに「約束を守る」ことを表面的な指示への従順さから、内在的なコンテキスト優先順位付けへと進化させていることを示している。

最下位の真相：GPT-o3の系統的な崩壊

GPT-o3は前回のベーススコアが低く、今回もわずか5.8点の上昇に留まり、他のモデルの平均上昇幅を大きく下回った。R3スコアの0.90は、直接的なプレッシャーがかかる場面でほぼ2回に1回の割合で制約を破ることを意味する。特にリソース制限とエンジニアリング規範のシナリオでは、「予算を超過する」や「コードレビューをスキップする」といった要求に頻繁に応じており、複数ラウンドの対話における初期ルールへの脆弱な記憶が露呈した。

上位と下位の差：18点の背後にある真の断絶

満点率52.4%というデータの背後で、差はR3に集中している。上位モデルのR3平均は1.57点であるのに対し、下位はわずか1.12点だ。実際のシナリオに換算すると、企業が導入する際に適切なモデルを選択することで、コンプライアンス違反リスクを約30%低減できることを意味する。中国語モデルのQwen3 MaxとERNIE Bot 4.5はともにトップ6入りを果たしており、国産モデルが守約の次元において追いかける立場から並走する立場への転換を完成させたことを証明している。

最も大きく上昇したGrok 4（+35.8点）とERNIE Bot 4.5（+32.5点）は、いずれもR3で顕著な改善を遂げた。
Claudeシリーズの上昇幅が最も小さく、安全アライメント戦略が高プレッシャーテストにおいてむしろ制約として作用していることが反映されている。

パイロット段階はメインランキングには算入されないが、すでに残酷な現実を明らかにしている。パラメータ規模と守約能力はもはや線形の正の相関関係にはなく、アーキテクチャとトレーニング目標の選択がより重要な鍵となっている。

次回、R3の重みがさらに引き上げられれば、GPT-5.5のリードはさらに拡大する可能性がある一方、GPT-o3は巻き返すためにコンテキスト優先順位付けのメカニズムを根本から再構築する必要があるだろう。

データ出典：YZ Index WDCD 守約ランキング | Run #161 · 総合ランキング | 評価方法論

GPT-5.5が89.17点でWDCDトップ、GPT-o3は70.83点で最下位に沈む

順位の構造：3つの階層に明確な分化

首位分析：GPT-5.5はなぜ89.17点を獲得できたのか

最下位の真相：GPT-o3の系統的な崩壊

上位と下位の差：18点の背後にある真の断絶

関連記事