なぜWDCDはAgent時代の「Crash Test」となるのか
WDCD Run#105は11の主流モデルと10題の制約問題による三段階のストレステストで、AI Agentの「衝突試験」を実施した。結果、最高得点でも満点の87%にとどまり、すべてのモデルに明確な構造的欠陥が露呈した。
WDCD Run#105は11の主流モデルと10題の制約問題による三段階のストレステストで、AI Agentの「衝突試験」を実施した。結果、最高得点でも満点の87%にとどまり、すべてのモデルに明確な構造的欠陥が露呈した。
Winzhengが推出したYZ Index v7の新しい実験的次元「DCD(Dynamic Context Decay、動的コンテキスト減衰)」は、複数ターン対話においてAIモデルが初期制約をどれだけ守れるかを測定する。判定にAIを一切使わ