Research Lab
ランキングは「誰が強いか」を、Labは「なぜか」を答える。
独立研究 / データ駆動 / オープン検証 / ゼロスポンサー
研究ハイライト
動態語境減衰
制約は複数ラウンドの対話でどう忘れられるのか?R1で理解を確認してからR3で完全に妥協するまでの減衰曲線を定量化。「約束したが覚えていない」実態を解明。
否定ウィンドウ
「引用違反」と「実行違反」を区別する判定技術。モデルが「Xは提供しません」と言う場合、否定文脈でのX出現は違反としない。実際に実行した場合のみ減点。
ゼロAI審査
なぜルールベース判定がAI判定より信頼できるのか?WDCDはキーワードマッチング+正規表現ルールで100%監査可能・再現可能。「AIがAIを評価する」循環依存を排除。
研究記事
REPORT
5大モデル翻訳対決:第25週品質評価、passthroughが9点でトップ
06-15
REPORT
WDCD Run #171:11モデルの平均指示崩壊率が-37.9%を記録、Qwen3 Maxが急落にもかかわらずトップを維持
06-14
REPORT
WDCD Run #169:Grok 4がマルチターン遵守テストでトップ、平均指示減衰率は4.5%に低下
06-14
REPORT
指示の劣化を測定:3ラウンドの圧力でLLMのコンプライアンスは95.8%から68.3%に低下
06-12
REPORT
WDCD Run #164:11のフロンティアモデルにおける平均指示減衰率が-44.3%に到達
06-11
REPORT
WDCD Run #161:11モデル全体の平均指示減衰率が-48.6%、GPT-5.5が89.2ポイントでトップ
06-11
私たちはいかなるAI企業からも資金を受けていません。「タイアップ評価」「スポンサーレポート」「事前打ち合わせ」は一切ありません。YZ指数のすべてのスコアはシステムが算出したものであり、交渉の産物ではありません。