5大シナリオの照妖鏡:リソース制限で全員撃沈、最高スコアはわずか2.17

WDCDのパイロットデータが公開され、30問・11モデル・5大シナリオのクロスマトリクスから反直感的な結論が導き出された:すべてのシナリオで約束を守れたモデルは1つもない。そして、最も単純に見える「リソース制限」シナリオで、なんと全員が撃沈した——首位のgrok-4でさえ2.17/4しか獲得できなかった。

最難関シナリオ:リソース制限が全員の「ワーテルロー」に

5大シナリオの平均点を並べてみると、その差は目を疑うほどだ。安全コンプライアンスシナリオは全員平均約2.92、業務ルールは約2.59、しかしリソース制限シナリオの全員平均はわずか1.89で、合格ラインにも届かない。つまり、モデルに「予算は5000元のみ」「1回の呼び出しでtokenは2000以下」「レスポンスタイムは200ms以内必須」といった硬性的なリソース制約を伝えても、3ターンの対話後にはモデルがこれらの数字を「忘れる」または「突破する」可能性が高い。

さらに皮肉なのが順位の逆転だ。grok-4はデータ境界、業務ルール、安全コンプライアンスの3シナリオで最下位だったが、リソース制限シナリオだけは逆転して首位に立った。これはgrok-4が強くなったわけではなく、他のモデルがリソースの数字の前で集団的に記憶喪失になったのだ——deepseek-v4-pro、doubao-pro、ernie-4.5の3社が揃って1.67点で、「R1の有効注入」すら安定してできていない。

リソース制限シナリオの失敗パターンは極めて一致している:R1で制約を受け入れる → R2で雑談後に制約の記憶が減衰する → R3でユーザーが「今回だけ特別にね」と甘えると、モデルが即座に折れる。数字型制約の減衰速度はルール型制約よりはるかに速い。

差別化が最大のシナリオ:業務ルールで1.5点の溝

業務ルールシナリオのレンジが最大だ——claude-opus-4.7とgpt-o3が3.17点で同率首位、grok-4が1.67点で最下位、頭尾の差は1.5点で、ほぼ倍の水準差だ。このシナリオで問われるのは「ワークフローは承認後に実行すべし」「顧客ランクA未満は割引対象外」といった企業の硬直的なプロセスであり、まさにSaaS、ERP、CRMアプリの中核である。

対照的に、安全コンプライアンスシナリオは11モデルが2.33から3.5までと、差別化が最小だった。これはコンプライアンス遵守が各社のRLHFで重点的にトレーニングされ、ほぼモデルの出荷時標準装備となっていることを示している。だが、業務ルールのような「顧客カスタム制約」を守る能力こそが、モデルの文脈堅守の真価を試す試金石なのだ。

偏科図鑑:deepseekが最も危険な「二面性」

8つのモデルでシナリオ間に1点以上の偏科が見られた。中でもdeepseek-v4-proの偏科が最も深刻——安全コンプライアンスでは3.33の準優勝、しかしリソース制限では1.67で最下位グループに転落、差は1.66点。この偏科は企業にとって地雷だ:「とても規律正しい」と思っていたら、コストや配額を管理させた途端に羽目を外す。

gpt-o3はもう一つの典型例だ。安全コンプライアンス3.5点で神格化されているが、エンジニアリング規範はわずか2点。「違反コンテンツを出力しない」は死守できるが、「コードはTypeScriptの厳格モードを使うべし」「any型禁止」といったエンジニアリング規律は覚えていられない。AIプログラミングプラットフォームにとって、gpt-o3のエンジニアリング規範の弱点は、コンプライアンス面の優位性以上に警戒すべきだ。

逆ケースはgemini-3.1-proだ:エンジニアリング規範は2.75で唯一の首位を獲得したが、安全コンプライアンスはわずか2.83で中位。興味深いのは、gemini-2.5-proとはエンジニアリング規範で1点差(2.75 vs 1.75)——同門の兄弟分なのに、エンジニアリング規律で丸々1段階の差がついている。これはGoogleが今世代のチューニングでコードシナリオに明らかに力を入れたシグナルだ。

企業選定の4つの鉄則

  • コンプライアンス駆動型業務(金融、医療、政務):第一選択はgpt-o3(3.5)またはdeepseek-v4-pro(3.33)だが、後者はコスト感応シナリオを避けるべし。
  • SaaS/業務プロセス自動化:claude-opus-4.7とgpt-o3が並んで第一選択(3.17)、claude-sonnet-4.6はコストパフォーマンスの代替案(3.0)。
  • AI Coding/エンジニアリングプラットフォーム:gemini-3.1-proがダークホース第一選択(2.75)、claudeの双子星が続く。絶対にgemini-2.5-proでコードを書かせるな——エンジニアリング規範は1.75しかなく、grok-4と並んで最下位だ。
  • 予算/配額/レート制限を伴うAgentシステム:すべてのモデルは信頼できない。外部に硬性guardrailを設置する必要があり、モデル層は最後のソフト制約しか担えない。

WDCDのパイロットデータは「総合スコア崇拝」の最後の覆いを引き剥がした——万能選手は存在せず、適切なシナリオパートナーがいるだけだ。モデル能力が日々接近する中、約束を守る安定性こそが企業レベルの実装における真の堀となる。次に誰かが総合スコアをもとにモデルを売り込んできたら、まずこう聞いてほしい:あなたが測ったのはどのシナリオですか?


データソース:YZ Index WDCD 約束遵守ランキング | Run #100 · シナリオマトリクス | 評価方法論