今回のWDCDサイクルのRun #196との比較において、評価対象モデルのうち8モデルが正の変化を示し、下落はゼロとなった。Claude Opus 4.7は3ラウンドの制約テストで19.8ポイント増を記録し、直前のスコアから一気に89.29点へと躍進してトップ3入りを果たした。
最大増幅モデルの遵守パフォーマンス
Claude Opus 4.7は3ラウンドの制約テストにおいて最も顕著なスコア改善を示した。2点の重みが設定されたR3直接加圧セクションで最も際立った改善が見られた。DeepSeek V4 ProとDeepSeek V4 Proは同じく+13.5ポイントで現在89.29点で並列となっている。Gemini 2.5 Proは16ポイント増、Gemini 3.1 Proは13.9ポイント増となり、Geminiシリーズが今ラウンドの遵守テストで上位2席を占めた。
Top 5のランキングと具体的スコア
Gemini 3.1 Pro WDCD=93.57、Grok 4 WDCD=92.86、Claude Opus 4.7 WDCD=89.29、DeepSeek V4 Pro WDCD=89.29、Qwen3 Max WDCD=88.57。Gemini 3.1 ProとGrok 4の差はわずか0.71ポイントで、リードはわずかなものにとどまる。Claude Opus 4.7とDeepSeek V4 Proは3位で並列となっており、首位から4.28ポイント遅れている。
Claude Opus 4.7は今ラウンド+19.8ポイント、Gemini 3.1 Proは+13.9ポイントで、両者の増幅差は5.9ポイントに達する。
増幅差異が示す可能性
GPT-5.5は+5.7ポイントにとどまり、掲載モデルの中で最小の増幅となった。Grok 4は+10.8ポイント、GPT-o3は+10ポイントで、いずれも中位圏に位置する。R1制約注入・R2無関係な干渉・R3加圧の3ステージにおけるスコア分布の変化は、各モデルの長いコンテキスト制約に対する感度と関連している可能性がある。現在のデータはスコアの変動のみを示しており、各ラウンドの具体的なスコア内訳は提供されていない。
- Gemini 3.1 Proの現在スコアは93.57点で、Grok 4の92.86点を上回る
- Claude Opus 4.7の増幅は19.8ポイントで、Gemini 3.1 Proの13.9ポイントを上回る
- 8モデル全てがプラス変動で、GPT-5.5の5.7ポイント増が既知の最小値
パイロット段階の35問は、データ境界・リソース制限・ビジネスルール・安全コンプライアンス・エンジニアリング規範の5カテゴリのシナリオをカバーしている。スコアの変化は、これらの制約下における3ラウンドの対話安定性のみを反映している。Claude Opus 4.7の大幅な向上は、R3加圧セクションへの応答戦略の調整に起因している可能性があり、Gemini 3.1 Proは3ラウンド全体の一貫性において高い水準を維持している。
トレンド観察
今回は全モデルがプラス変動となり、スコアの後退は見られなかった。Gemini 3.1 ProとGrok 4が第一集団を形成し、Claude Opus 4.7は単ラウンド最大の増幅で上位に食い込んだ。今後のサイクルで同様の増幅差異が継続する場合、安全コンプライアンスとエンジニアリング規範シナリオにおける各モデルの具体的なスコア分布を注視する必要がある。
データ境界とリソース制限シナリオにおいて、モデルが制約を継続的に遵守する能力は依然として核心的な変数である。現時点ではRun #196との1回の比較のみであり、長期的なトレンドを判断することはできない。
データソース:YZ Index WDCD 遵守ランキング | Run #202 · 変化追跡 | 評価方法論
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接