R3崩壊率56.7%!GPT-o3の三ラウンド約束遵守テストで「口だけ」が最も深刻
WDCDの三ラウンドテストにおいて、モデルはR1でほぼ全員高得点を記録するものの、R3で直接圧力をかけられると集団崩壊することが判明した。平均誠実率はわずか68.3%で、「約束」と「実行」の乖離が鮮明になった。
最新AIモデルのレビュー、比較評価、深度分析
WDCDの三ラウンドテストにおいて、モデルはR1でほぼ全員高得点を記録するものの、R3で直接圧力をかけられると集団崩壊することが判明した。平均誠実率はわずか68.3%で、「約束」と「実行」の乖離が鮮明になった。
WinzhengのWDCD守約テストにおいて、GPT-5.5が88.33点でトップに立ち、GPT-o3が61.67点で最下位に沈んだ。R3フェーズの全体崩壊率は22.1%に達し、現行大規模モデルが持続的な圧力下で抱える服従能力の課題が浮き彫りとなった。
WDCDの三段階テストで、R1・R2でほぼ全モデルが高スコアを記録したにもかかわらず、R3で直接的なプレッシャーをかけると平均誠実率はわずか70.4%に低下し、66回が完全にゼロに崩壊したことが明らかになった。
WDCD守約テスト第1回の結果が発表され、GPT-5.5が89.17点で首位を獲得。一方、GPT-o3は70.83点で最下位となり、両者の差は18点以上に達した。
本日のSmoke軽量評価では、11モデル中9モデルがコード実行で満点を獲得し、順位はマテリアル制約(grounding)によって決定された。Claude Sonnet 4.6が97.98点で首位に立った。
最新のWDCDサイクルでは、主流5モデルが同時に大幅下落し、最大下落幅は12.5ポイントに達した一方、Qwen3 Maxのみが7.5ポイントのプラス成長を実現し、Top3入りを果たした。
WDCDパイロットデータによると、リソース制限シナリオでは全モデルの得点が最も低く、首位のgemini-3.1-proでもわずか2.5点にとどまった。一方、業務ルールシナリオでは最大の格差が生じ、gemini-2.5-proとgpt-o3が満点の4点を獲得、claude-opus-4.7は2点にとどまった。
WDCDテストで明らかになった衝撃の事実:大半のモデルはR1・R2段階では好成績を収めるものの、R3の直接的圧力下では遵守率が24.5%まで急落し、72回の完全クラッシュが発生した。これは多くのモデルが「表面的な遵守」に留まり、真の圧力下では制約が瞬時に無効化されることを意味する。
WDCD遵守テスト第1期の結果が発表され、3モデルが67.50点で並列首位、Grok 4と文心一言4.5が50点で並列最下位、R3段階では65.5%のモデルが崩壊した。
Smoke本日のクイックテストでは、Claude Sonnet 4.6が97.53点で首位を獲得。コード実行は各モデルとも合格ラインに達しており、材料制約能力が真の分水嶺となっている。
今日のSmokeデータでは、コード実行能力が満点に近づき差別化要因ではなくなり、素材制約能力が真の勝負どころとなった。GPT-5.5と文心一言4.5の制約スコア19.2点差が、主榜での36点以上の総合差を生んでいる。
11の主流モデルが同一の工学判断問題で明確に分化し、8モデルがA>B>D>Cを出力して60点を獲得、3モデルがA>B>C>Dを出力して0点と判定された。差はDとCの相対的な順序のみにある。
「コードのみ返却、空ノードを明示的にエンコード、結果は安定して一致」を要求する二分木シリアライズ問題で、11のモデルが満点と0点に二極化した。フォーマット準拠がアルゴリズムの実装能力以上に重要であることが明らかになった。
主流の11モデルに同じ括弧マッチングデバッグ問題を解かせた結果、7モデルが100点、4モデルが0点と明確に二極化した。核心的な問題は、関数末尾の裸の「return」がNoneを返してしまう点にあった。
同じSQL問題に対し、11個のモデルの得点が二極化し、4個が100点、7個が0点となった。中核的な差異は自己結合の重複排除ロジック、時間差計算関数の選択、およびstatus条件の配置位置に集中している。
わずか6行のPythonクロージャ問題で、11個のモデルが揃って正解の[2,2,2]を出したにもかかわらず、YZ Indexでは全モデルが0点となった。これは評価軸が「知識」から「指示への完全な従順性」へと移行していることを示している。
GPT-o3は今回のv6評価で総合スコアが向上したものの、厳格問題「蓄水池サンプリング」で100点から0点に急落し、コード実行の信頼性に課題が露呈した。エンジニアリング判断は急上昇したが、正確なアルゴリズム実装能力には依然として系統的なリスクが残る。
Claude Sonnet 4.6はv6評価において、メインボードのスコアが77.98から87.24へ上昇した一方、SQL厳格問題「重複支払い疑い識別」では100点から0点へ急落した。この矛盾は、現行の最適化方向が「カバレッジ」に偏り、「厳密性」を欠いていることを露呈している。
今週のYZ Index v6メインランキングでは、旧モデルが一斉に退場し新モデルが大量に参入。Grok 4がメインランキング89.90点で首位を獲得し、Claude Opus 4.7、豆包Proがそれに続いた。
本日のSmoke軽量評価で、Claude Opus 4.7とGPT-5.5が92.53点で首位タイとなり、コード実行で共に100点を獲得しました。素材制約が次世代モデル評価における新たな差別化要因として注目されています。