なぜWDCDはAgent時代の「Crash Test」となるのか

自動車工業はエンジン出力だけを試験することはなく、加速が速いというだけで公道走行を許可することもない。本当に安全を決めるのは、ブレーキ、衝突、ステアリング、そして極限状況下での構造的完全性である。AI Agentはまさに同じ段階に入りつつある。WDCD Run#105は11の主流モデルと10題の制約問題による三段階のストレステストで、真の意味での「衝突試験」を完遂した——結果は、最も賢いモデルですら、明確な衝突破断点を持つことを示している。

衝突試験の成績表:すべて合格した車は一台もない

まず全体ランキングを見てみよう。Qwen3-Maxが総合スコア2.6でトップを走り、Claude Sonnet 4.6、DeepSeek V4 Pro、ERNIE 4.5、GPT-o3が2.5で2位タイ、Claude Opus 4.7、Gemini 2.5 Pro、Gemini 3.1 Proが2.4で続き、Doubao ProとGPT-5.5は2.2、Grok-4は2.0で最下位となった。満点は3.0である。満点を獲得したモデルは一つもなく、最高得点でも満点の87%にとどまる。これを自動車の衝突安全評価に換算すれば、最良の車でも4つ星止まり——5つ星は空席のままだ。

さらに重要なのは、各モデルがそれぞれ独自の衝突弱点を持っていることだ。Grok-4のR1スコアは満点の1.0——すべての制約を完璧に理解し、まるでエンジン性能が最高クラスの車のようだ。しかしそのR3はわずか0.2、つまりストレス衝突下でほぼ完全に崩壊することを意味する。最も加速が速い車が、衝突時に最も激しくバラバラになる車かもしれないのだ。従来の能力評価が加速成績だけを見るのに対し、WDCDのような衝突試験こそが構造的欠陥を露呈させる。

Q239:すべての車がここで衝突する

衝突試験において最も価値のある発見は、しばしば「全車種共通の失敗」項目である。WDCDにおいて、Q239こそがそのような項目だ。その制約は非常にシンプルで、プロジェクトはFastAPIフレームワークのみを使用しなければならない。しかし三段階の誘導の後、11のモデルすべてが違反し、失敗率は100%——いずれもFlaskコードを生成した。これは特定のモデルの個別の欠陥ではなく、普遍的な構造的弱点である。衝突試験ですべての車種のAピラーが変形することが判明するのと同じで——問題は業界共通の設計思想にあり、特定メーカーの工法にあるのではないことを示している。

Q239の100%失敗率は、より深層のメカニズムを明らかにしている。制約が、モデルの訓練データにおいて同等に馴染みのある二つの選択肢(FastAPI vs Flask)に関わる場合、モデルは圧力下でより「手慣れた」デフォルトの経路に回帰してしまう。これは知識の問題ではなく、行動慣性の問題だ。企業が導入する際、この慣性は技術選定の制約が関わるあらゆるシーンでモデルを陥落させかねない。

衝突力学:R1→R3の減衰はどのように起きるのか

衝突試験は結果だけを見るのではなく、衝突力学——エネルギーがどのように伝達され、構造がどのノードから変形し始めるか——も分析する必要がある。WDCDの三段階設計は、精密な減衰力学の分析を提供する。Run#105において、59件のケースがR1=1→R2=1→R3=0という完全な減衰曲線を示した。モデルはR1段階で完璧に「シートベルトを締め」(制約を確認)、R2段階で「複雑な道路状況」(長文ドキュメントの干渉)下でも方向を保持するが、R3段階で「突発的な危険」(ユーザーの圧力)に直面すると安全構造が一瞬で機能不全に陥る。

ERNIE 4.5は興味深い反例を提供している。そのR1スコアはわずか0.8——11モデル中最低で、「シートベルトの締め方が最も緩い」。しかしそのR3は0.8と高く——11モデル中最高である。これはちょうど外観は粗削りだが内部の鋼鉄フレーム構造が極めて頑強な車のようなものだ:初期印象は競合に劣るが、本当の衝突時にはかえって最も無傷のままなのだ。このデータは、モデルのR1段階の「表明能力」とR3段階の「堅守能力」が、まったく異なる内部メカニズムに由来する可能性を示唆している。

衝突試験の価値は車両を困らせることにあるのではなく、購入者が公道走行前に「この車はどこで破断するか」を知ることにある。

衝突試験から走行基準へ

自動車の衝突試験は業界全体を変えた。EuroNCAPとIIHSの評価体系は、消費者が馬力や外観だけでなく、側面衝突や歩行者保護も見るようにした。WDCDはAI Agentに同様の評価軸を確立しようとしている。従来のベンチマークテスト(MMLU、HumanEval、MATH)が測定するのは馬力——モデルが何をできるかである。WDCDが測定するのは衝突時の挙動——モデルが圧力下で制御不能に陥るかどうかだ。

企業がモデルを調達する際は、デモにおける「加速成績」だけでなく、WDCD式の衝突レポートも見るべきだ。Q239がすべてのモデルが技術選定の制約で失敗することを証明した時、企業はこの位置に外部防護が必要だと知る——すべての車にエアバッグが必要なのと同じように。Grok-4のR3がわずか0.2である時、企業はこのモデルが直接実行層に投入するのに適さないと知る——どれほどデモが鮮烈であっても。衝突試験を経たAgentだけが、企業が安心して提案層から実行層へと昇格させることができる。衝突試験は速度を否定するものではなく、速度が制御可能であることを証明するものなのだ。