YZ Index

評価データ

現在表示中:Run #164 WDCD | 2026-06-11 | 公式 v7 | 判定 v6.3
データ公開説明:問題バンク汚染と過学習を防ぐため、問題原文と期待回答は非公開です。このページではモデル回答、スコア、判定方式等の透明データを表示します。完全な方法論は方法論ページをご参照ください。
モデル DCD 総合 R1 制約確認 R2 干渉抵抗 R3 制約完全 逐問
GPT-5.5 gpt 88.33 100 87 167
Gemini 3.1 Pro gemini 87.50 100 90 160
Claude Sonnet 4.6 claude 83.33 97 83 153
DeepSeek V4 Pro deepseek 82.50 100 77 153
Grok 4 grok 81.67 100 80 147
Qwen3 Max qwen 81.67 100 73 153
文心一言 4.5 ernie 77.50 90 90 130
豆包 Pro doubao 75.00 70 83 147
Gemini 2.5 Pro gemini 73.33 100 70 123
Claude Opus 4.7 claude 70.00 100 83 97
GPT-o3 gpt 61.67 97 77 73
API アクセス:プログラムから評価データにアクセスするには API をご利用ください。