WDCD選定ガイド:企業のモデル選びでは、もう「誰が1位か」だけを問うのはやめよう

企業がモデルを選定する際、最もよく聞かれる質問は「今、誰が1位か」である。この問いはシンプルで直接的だが、しばしば深刻な誤解を招く。WDCD Run#105のデータは、明確かつ直感に反する答えを示している:制約遵守の次元においては、絶対的な1位は存在せず、シナリオ適合性があるのみだ。総合スコア1位のモデルが、特定の重要シナリオでは順位の低い選手にすら及ばない場合がある。

総合スコア1位 ≠ 全方位1位

Run#105では、Qwen3-Maxが総合スコア2.6で1位にランクインした(R1:1.0、R2:0.9、R3:0.7)。しかしこれは、すべてのシナリオでQwen3-Maxを選ぶべきという意味ではない。同じく2.5点を獲得したモデルが4つある——Claude Sonnet 4.6、DeepSeek V4 Pro、ERNIE 4.5、GPT-o3——だが、それらのスコア構造は全く異なる。Claude Sonnet 4.6のR2は満点の1.0に達し、長文ドキュメントにおける干渉耐性で最強である。ERNIE 4.5のR3は0.8と高く、圧力誘導下での遵守能力では全モデル中無敵の存在だ。企業のコアリスクが長文ドキュメントシナリオにおける制約忘却であれば、総合スコアで上回るQwen3-MaxよりもClaude Sonnet 4.6の方が適している。コアリスクがユーザーの圧力によるモデルの逸脱であれば、ERNIE 4.5こそ最適な選択となる。

ランキング最下位 ≠ 使うに値しない

Grok-4は総合スコア2.0で11位だが、そのR1スコアは満点の1.0である——制約理解能力においては、1位のQwen3-Maxと完全に同等だ。Grok-4の問題はR3(0.2)、すなわち圧力下での遵守能力が極端に弱いことにある。しかし、企業の使用シナリオがシングルターンのQ&Aで、マルチターンの圧力誘導を伴わない補助分析であれば、Grok-4の理解力は実は十分に使える。これを一律に選定対象から除外するのは、リソースの浪費である。

逆に、ERNIE 4.5のR1はわずか0.8——11モデル中最下位だ。初回ラウンドの表現だけを見れば、大半の競合製品にすら及ばない。しかしそのR3は0.8と高く、総合スコア2.5で2位タイにつけている。この「スタートは遅いが、圧力下では最も安定する」という特性こそ、高圧シナリオ(顧客クレーム対応、コンプライアンス審査補助)でモデルを実行させる必要のある企業が最も重視する能力なのだ。

5種類のシナリオ、5通りの選び方

WDCDは5種類の企業シナリオをカバーする:データ境界(db)、リソース制限(rl)、業務ルール(br)、セキュリティ規約(sec)、エンジニアリング規約(eng)。Run#105のデータが示すように、セキュリティ規約系シナリオの防御性は最良(例:Q237のHTTPS制約は4/11の失敗のみ)であり、エンジニアリング規約系シナリオの遵守崩壊が最も深刻だ(例:Q239のフレームワーク制約は11/11の完全失敗)。これは、業界によって選定ロジックが完全に異なることを意味する:

金融業界が最も気にするのはデータ境界と業務ルール——割引制約(Q227:8/11失敗)と承認フローがコアリスクとなる。SaaS製品が最も気にするのはテナント分離とリソース制限——同時実行制御(Q223:7/11失敗)とリトライ制約(Q226:9/11失敗)はシステム安定性に直結する。AIコーディング製品が最も気にするのはエンジニアリング規約——フレームワーク選定とコーディング規約の遵守はコード品質の最低ラインだ。

企業がモデルを選ぶとは、チャンピオンを選ぶことではなく、自社の最重要リスクシナリオにおいて、説得されて逸脱しにくいシナリオパートナーを選ぶことである。

ランキングを超えた選定方法論

さらに踏み込めば、企業自身の制約は、しばしば公開ランキングには含まれていない。各社には固有のレッドラインがある:特定の承認フロー、特定のデータマスキング要件、特定の技術スタック制限。Run#105が測定しているのは汎用的な制約シナリオだが、企業が本当に必要としているのは、自社のルールをストレステストに組み込むことだ。選定時の正しいアプローチは総合スコアの順位を見ることではなく、以下の通りである:第一に、自社で最も頻発する制約タイプを特定する。第二に、そのタイプのシナリオにおけるモデルのパフォーマンスを比較する。第三に、自社固有のルールに対してカスタマイズされたR3ストレステストを実施する。

だから、もう「誰が1位か」と問うのはやめよう。問うべきは:自分の業界、自分のフロー、自分の権限境界、自分の予算制限下において、圧力を受けても誰が最も信頼できるか、である。総合スコア2.6のQwen3-Maxは、あなたのシナリオには総合スコア2.5のERNIE 4.5ほど適していないかもしれない——これこそが、WDCDのデータが従来のランキングよりも価値ある理由なのだ。