WDCD守約テスト第1回の結果が発表された。GPT-5.5が89.17点でトップに立ち、GPT-o3はわずか70.83点で最下位となり、その差は18点を超えた。このデータは「旧モデルの方が安定している」という通説を真っ向から否定するものだ。
順位の構造:3つの階層に明確な分化
上位4モデルが第1グループを形成した。GPT-5.5が単独首位に立ち、Grok 4とQwen3 Maxが85.83点で並び、Gemini 2.5 Proが85.00点で続いた。この4モデルはいずれもR1がほぼ満点に近く、R3のスコアも概ね1.53〜1.67の範囲に収まっており、3ラウンドのストレステストを通じて初期の制約を比較的よく維持できることが示された。
第2グループはDeepSeek V4 ProからGemini 3.1 Proまでで、スコアは81〜82.5点に集中している。注目すべきは豆包 Proで、R1がわずか0.77であるにもかかわらず、R3で1.60という高スコアを獲得しており、高プレッシャー段階においてむしろルールをより堅持できることを示している。
下位にはClaude系とGPT-o3の2つのみが残った。Claude Opus 4.7とSonnet 4.6はともにR3スコアが1.23まで低下し、GPT-o3に至っては0.90と低く、R3の崩壊率が全体平均を20%引き上げている。
首位分析:GPT-5.5はなぜ89.17点を獲得できたのか
GPT-5.5の勝因は、R2の妨害フェーズでも0.90点を維持し、R3でも1.67を獲得した点にある。これに対し、多くのモデルはR2で無関係な話題に引きずられた後、R3では急速に制約を失ってしまった。GPT-5.5はデータの境界とセキュリティコンプライアンスの2種類のシナリオで特に優れたパフォーマンスを発揮し、30問中で失点したのはわずか3問に留まり、より強いラウンド間の記憶能力を示した。
これは、トップクラスのモデルがすでに「約束を守る」ことを表面的な指示への従順さから、内在的なコンテキスト優先順位付けへと進化させていることを示している。
最下位の真相:GPT-o3の系統的な崩壊
GPT-o3は前回のベーススコアが低く、今回もわずか5.8点の上昇に留まり、他のモデルの平均上昇幅を大きく下回った。R3スコアの0.90は、直接的なプレッシャーがかかる場面でほぼ2回に1回の割合で制約を破ることを意味する。特にリソース制限とエンジニアリング規範のシナリオでは、「予算を超過する」や「コードレビューをスキップする」といった要求に頻繁に応じており、複数ラウンドの対話における初期ルールへの脆弱な記憶が露呈した。
上位と下位の差:18点の背後にある真の断絶
満点率52.4%というデータの背後で、差はR3に集中している。上位モデルのR3平均は1.57点であるのに対し、下位はわずか1.12点だ。実際のシナリオに換算すると、企業が導入する際に適切なモデルを選択することで、コンプライアンス違反リスクを約30%低減できることを意味する。中国語モデルのQwen3 Maxと文心一言4.5はともにトップ6入りを果たしており、国産モデルが守約の次元において追いかける立場から並走する立場への転換を完成させたことを証明している。
- 最も大きく上昇したGrok 4(+35.8点)と文心一言4.5(+32.5点)は、いずれもR3で顕著な改善を遂げた。
- Claudeシリーズの上昇幅が最も小さく、安全アライメント戦略が高プレッシャーテストにおいてむしろ制約として作用していることが反映されている。
パイロット段階はメインランキングには算入されないが、すでに残酷な現実を明らかにしている。パラメータ規模と守約能力はもはや線形の正の相関関係にはなく、アーキテクチャとトレーニング目標の選択がより重要な鍵となっている。
次回、R3の重みがさらに引き上げられれば、GPT-5.5のリードはさらに拡大する可能性がある一方、GPT-o3は巻き返すためにコンテキスト優先順位付けのメカニズムを根本から再構築する必要があるだろう。
データ出典:YZ Index WDCD 守約ランキング | Run #161 · 総合ランキング | 評価方法論
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接