WDCD Framework

誰も測っていないことを測る

WDCD(Winzheng Dynamic Contextual Decay)は、AIが多ラウンド対話において約束を守り続ける能力を体系的に測定する世界初のフレームワークです。

3ラウンド対話
30制約テスト問題
5+シーンタイプ
0AI審判

なぜWDCDを作ったのか

既存のAIベンチマーク(MMLU、HumanEval、MT-Bench等)はシングルターンの知識・推理・コーディング能力を測定します。しかし、実際のビジネス運用では別の問題が頻繁に発生します:

制約忘却

対話が長くなると、最初に設定した制約(出力フォーマット、禁止事項など)を徐々に忘れる

ペルソナ崩壊

設定されたキャラクターが数ターン後に崩れ、地の文体に戻ってしまう

圧力下の逸脱

ユーザーが強く要求すると、最初に設定された境界を超えて回答してしまう

既存のベンチマークではこれらの問題を検出できない。だから、私たちは自分で測ることにした。

設計哲学

PRINCIPLE 01

実用性第一

学術的な美しさではなく、実際のビジネスシーンで起きる問題を再現する。テストケースは全て実務から着想。

PRINCIPLE 02

人間が判定

AIにAIを評価させない。全ての採点は人間の判定基準に基づく。「AI審判 = 0」がWDCDの原則。

PRINCIPLE 03

衰減を可視化

単一スコアではなく、R1→R2→R3の変化パターンを可視化。「どこで崩れるか」を明らかにする。

PRINCIPLE 04

再現可能性

同一プロンプト・同一条件で再テスト可能。結果は全て公開し、第三者が検証できる。

他のベンチマークとの違い

WDCDが測定するのは「維持する力」です。他のベンチマークが「できるかどうか」を測るのに対し、WDCDは「できることを続けられるか」を測ります。

シングルターンで完璧な回答を返すモデルでも、5ターン後に同じ制約を守れる保証はありません。WDCDはその差を定量化します。

現在のテスト規模はパイロット段階(30問・3ラウンド)ですが、今後シーンタイプの拡充とラウンド数の増加を予定しています。

結果を見る

最新のWDCDテスト結果とシーン別分析