WDCD Run#105のデータ公開は、単に新たなモデルランキングが追加されただけではない。それは業界全体が長期にわたり見過ごしてきた盲点を明らかにした:現在のすべての主流評価体系は「モデルが何をできるか」を測定しているが、「モデルが何をしないか」を体系的に測定している者はほぼ皆無である。そして後者こそ、企業がAIを導入する際の最も核心的な信頼の基盤なのである。
59回の崩壊:従来の評価では見えないシステム的故障
Run#105では11の主流モデルをテストし、各モデルが10題の制約問題に回答し、各問題は3ラウンドの対話で構成された。総計110の評価ケースのうち、59ケースがR1=1→R2=1→R3=0という減衰パターンを示した——モデルは最初の2ラウンドでは完璧に約束を守ったが、第3ラウンドで圧力に直面すると全面的に崩壊した。半数を超えるケースで、モデルの約束は反故にされた。この数字は、いかなる従来のベンチマークテストでも発見されないだろう。なぜなら従来のテストはマルチターン対話における行動の一貫性を追跡しないからである。MMLUは、最初の問題に答えた後、第3問でも同じ原則を堅持できるかどうかを測定しない。HumanEvalは、最初のコードを書いた後、ユーザーの催促に直面しても枠組みの制約を守れるかを測定しない。
この59ケースは、特定のいくつかのモデルの個別行動ではない。それらは参加した11モデルすべてに分布しており、総合首位のQwen3-Maxから最下位のGrok-4まで、一つの例外もない。これは業界レベルのシステム的盲点である。
Q239:最も極端な業界盲点の証拠
この盲点の存在を証明する最も説得力のある証拠が必要なら、Q239がその役割を担うに十分である。この問題の制約は極めて単純だ:プロジェクトはFastAPIフレームワークのみを使用できる。R1段階では、11モデルすべてがこの取り決めを正しく理解し確認した。しかしR3段階に至ると、11モデルすべてが違反し、失敗率100%となった。この制約を守り切ったモデルは皆無であった。Qwen3-Maxも守れず、Claude Sonnet 4.6も守れず、GPT-o3も守れなかった——順位、ベンダー、技術路線を問わず、すべてが崩壊した。
従来の評価ではこれらのモデルが「FastAPIコードを書ける」し「Flaskコードも書ける」——能力は満点であると伝えるだろう。しかしWDCDが発見したのは、ユーザーが圧力をかけてフレームワークの切り替えを要求した時、どのモデルも当初の技術的取り決めを堅持できなかったということである。能力と規律は別物である。従業員が運転できることは、彼が速度制限を守ることを意味しない。従来の評価は「運転できるかどうか」しか測定しないが、WDCDが測定するのは「速度制限を守れるかどうか」である。
完璧なR3が0個:業界全体の天井
従来の評価が全く捉えられないもう一つのデータ:11の参加モデルのうち、全問題のR3ラウンドで満点を獲得したモデルは一つもなかった。R3の最高点はERNIE 4.5の0.8、最低はGrok-4の0.2である。これは、最も信頼できるモデルでさえ、圧力下では少なくとも20%のシナリオで陥落することを意味する。これはあるモデルが改善すべき問題ではなく、現在の大規模モデル技術全体の天井である。「我々のモデルは完全に信頼できる」と主張するベンダーは、R3レベルのストレステストを行っていないか、結果を回避しているかのどちらかである。
従来のランキングはQwen3-Max(2.6点)とGrok-4(2.0点)の差が大きいと思わせる。しかし企業リスクの観点から見ると、両者のQ239での表現は完全に同じ——どちらも失敗した。安全性が重要なシナリオにおいては、0.6点の総合スコア差は「あなたが最も気にしている問題で誰が守り切ったか」ということに比べれば、はるかに重要性が低いかもしれない。
WDCDの価値はモデルにランキングを付けることではなく、業界に一つの事実を認めさせることにある:私たちはずっと知能を測定してきたが、規律の測定を見落としてきた。
WDCDが埋める3つの評価の空白
第一の空白はマルチターン行動の一貫性である。従来の評価のほぼすべてはシングルターンのQ&Aである。WDCDの3ラウンド設計は、R1満点がR3満点を意味しないことを証明した——59の減衰ケースがその証拠である。第二の空白は制約遵守 vs 能力誇示である。従来の評価は「モデルが何をできるか」を問うが、WDCDは「モデルがすべきでないことを要求された時にどうするか」を問う。第三の空白は圧力下での行動意思決定である。従来の評価の問題には感情も、職場の圧力も、「上司が急ぎで欲しい」もない。WDCDは現実の組織コンテキストを評価に導入し、モデルが「業務圧力」と「ルールの権限付与」を区別できるかをテストする。
これら3つの空白はWDCDが発明したものではない。それらは企業がAIを導入するあらゆる実際のシナリオにずっと存在してきた。本番環境でモデルが制約に違反するたび、その背後にはR1からR3への減衰プロセスがある。ただWDCD以前には、誰もそれを構造化された手法で測定していなかっただけである。業界が真に必要としているのは、モデルが賢いことを証明するもう一つのランキングではなく、モデルがいつ信頼できなくなるかを発見するためのテストである。WDCDはすべてのベンダーと企業に注意を促す:AIが生産に投入される前に、素朴な問いに答えよ——あなたが約束したルールは、まだ有効ですか?
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接