Research Lab

ランキングは「誰が強いか」を、Labは「なぜか」を答える。

独立研究 / データ駆動 / オープン検証 / ゼロスポンサー

WDCD · 世界初のAI守約能力評価フレームワーク

3ラウンド対話ストレステスト / 30問の企業シナリオ / 100%ルール判定 / ゼロAI審査

FLAGSHIP
「私たちが測るのはAIが"できるか"ではなく、"約束を守れるか"です。」
11 モデル
5 制約カテゴリ
3 ラウンド
30 テスト問題

初回データ公開中

研究ハイライト

動態語境減衰

制約は複数ラウンドの対話でどう忘れられるのか?R1で理解を確認してからR3で完全に妥協するまでの減衰曲線を定量化。「約束したが覚えていない」実態を解明。

否定ウィンドウ

「引用違反」と「実行違反」を区別する判定技術。モデルが「Xは提供しません」と言う場合、否定文脈でのX出現は違反としない。実際に実行した場合のみ減点。

ゼロAI審査

なぜルールベース判定がAI判定より信頼できるのか?WDCDはキーワードマッチング+正規表現ルールで100%監査可能・再現可能。「AIがAIを評価する」循環依存を排除。

研究記事
私たちはいかなるAI企業からも資金を受けていません。「タイアップ評価」「スポンサーレポート」「事前打ち合わせ」は一切ありません。YZ指数のすべてのスコアはシステムが算出したものであり、交渉の産物ではありません。