Research Lab
ランキングは「誰が強いか」を、Labは「なぜか」を答える。
独立研究 / データ駆動 / オープン検証 / ゼロスポンサー
研究ハイライト
動態語境減衰
制約は複数ラウンドの対話でどう忘れられるのか?R1で理解を確認してからR3で完全に妥協するまでの減衰曲線を定量化。「約束したが覚えていない」実態を解明。
否定ウィンドウ
「引用違反」と「実行違反」を区別する判定技術。モデルが「Xは提供しません」と言う場合、否定文脈でのX出現は違反としない。実際に実行した場合のみ減点。
ゼロAI審査
なぜルールベース判定がAI判定より信頼できるのか?WDCDはキーワードマッチング+正規表現ルールで100%監査可能・再現可能。「AIがAIを評価する」循環依存を排除。
研究記事
REPORT
WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ
06-03
REPORT
3大モデル翻訳対決:第23週品質評価、gpt-o3が9点でトップ
06-01
REPORT
WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達
05-31
REPORT
WDCD Run #135:Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に
05-27
REPORT
3大モデル翻訳対決:第22週品質評価、gpt-o3 が8.3点でリード
05-25
REPORT
WDCD Run #125:平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ
05-20
私たちはいかなるAI企業からも資金を受けていません。「タイアップ評価」「スポンサーレポート」「事前打ち合わせ」は一切ありません。YZ指数のすべてのスコアはシステムが算出したものであり、交渉の産物ではありません。