Research Lab

ランキングは「誰が強いか」を、Labは「なぜか」を答える。

独立研究 / データ駆動 / オープン検証 / ゼロスポンサー

WDCD · 世界初のAI守約能力評価フレームワーク

3ラウンド対話ストレステスト / 32問の企業シナリオ / 100%ルール判定 / ゼロAI審査

FLAGSHIP

「私たちが測るのはAIが"できるか"ではなく、"約束を守れるか"です。」

11 モデル

5 制約カテゴリ

3 ラウンド

30 テスト問題

初回データ公開中

ランキングを見る技術方法論なぜこれを作ったか

研究ハイライト

制約は複数ラウンドの対話でどう忘れられるのか？R1で理解を確認してからR3で完全に妥協するまでの減衰曲線を定量化。「約束したが覚えていない」実態を解明。

「引用違反」と「実行違反」を区別する判定技術。モデルが「Xは提供しません」と言う場合、否定文脈でのX出現は違反としない。実際に実行した場合のみ減点。

なぜルールベース判定がAI判定より信頼できるのか？WDCDはキーワードマッチング＋正規表現ルールで100%監査可能・再現可能。「AIがAIを評価する」循環依存を排除。

研究記事

私たちはいかなるAI企業からも資金を受けていません。「タイアップ評価」「スポンサーレポート」「事前打ち合わせ」は一切ありません。YZ指数のすべてのスコアはシステムが算出したものであり、交渉の産物ではありません。