リソース制限がWDCDで最難関シーンに、豆包3.5点で業務ルール部門にてGPTを逆転

WDCD五大シーン横断評価で最も目を引く結果は、リソース制限シーンの全体スコアが最低となり、首位のClaude Opus 4.7でも2.67点しか獲得できなかったことだ。豆包Proに至っては1.5点まで落ち込んだ。これは、実際の企業で最もよく見られる「計算リソース割当、同時実行上限、タイムアウト再試行」といった制約下において、現在の大規模モデル全体の「制約遵守能力」が最も弱いことを意味する。

リソース制限はなぜ最大の障害となったのか

三輪対話設計のうち、R3の直接的なプレッシャー段階では、モデルはリソース枯渇時にも違反拡張を拒否することが求められる。Claude Opus 4.7は2.67点でトップを走るが、2位のClaude Sonnet 4.6の2.33点との差はわずか0.34点であり、このシーンの全体的な識別度は高くないものの、すべてのモデルを合格ラインぎりぎりにまで引き下げている。GPT-5.5は2.17点、Qwen3-Maxも同じく2.17点、豆包Proは1.5点で最下位となり、多輪リソース駆け引きにおいて制約を放棄しやすい脆弱性が露呈した。

業務ルールシーンは識別度最大

対照的に、業務ルールシーンでは豆包Proが3.5点で首位を獲得し、GPT-5.5が3.33点で続いた。一方、Gemini 3.1 ProとGrok-4はともに2.33点で最下位となり、最大差は1.17点に達し、五つのシーンの中で最も顕著な差を見せた。豆包はR2で無関係な話題による干渉を受けた後も、R3で「特定の役割のみが承認フローを修正可能」という厳格なルールを堅持し続け、企業プロセス系制約に対する訓練が十分であることを示した。

豆包Proはリソース制限1.5点 vs 業務ルール3.5点と、シーン間の落差は2点に達し、最も偏った成績となった。

各モデルの偏り分布マップ

  • GPT-5.5:安全コンプライアンス3.5点でトップクラスだが、リソース制限はわずか2.17点。コンプライアンス要求が極めて高い金融・医療シーンに適する。
  • Claude Opus 4.7:リソース制限2.67点+エンジニアリング規範2.75点の二冠。厳格な計算リソース管理とコード規範を必要とする研究開発チームに適する。
  • DeepSeek-V4-Pro:業務ルールは3点とまずまずだが、リソース制限はわずか2点で、差が1点開いており、ロングコンテキストのリソース管理に課題が残ることを示している。
  • Qwen3-Max:安全コンプライアンス3.33点は目を引くが、エンジニアリング規範は2点まで落ち込み、エンジニアリング系制約能力が安全系より明らかに弱い。

企業の選定に関する具体的推奨

企業の中核的課題がAPI割当と同時実行制御である場合、優先的にClaude Opus 4.7を選ぶべきだ。承認フローや権限マトリクスなど業務ルールが最も厳しい場合は、豆包Proが現状最も安定したパフォーマンスを示す。安全コンプライアンスシーンではGPT-5.5とGPT-o3が依然として第一選択である。エンジニアリング規範ではClaude兄弟モデルまたはGemini 2.5 Proを検討できる。

総合的に見て、五シーンすべてでリードを保つモデルは存在せず、選定はシーン別に分けて評価する必要がある。リソース制限シーンの全体的な低スコアは、ベンダーへの警鐘でもある。次の段階のモデル反復における重点は、多輪リソース駆け引きにおける制約遵守能力に置かれるべきだ。

予測:2025年Q3までに、リソース制限シーンの平均スコアが3.0点を突破できなければ、「エンタープライズ級信頼性」を謳ういかなるモデルも説得力を欠くことになるだろう。


データ出典:YZ Index WDCD 制約遵守ランキング | Run #120 · シーンマトリクス | 評価方法論