YZ Index
評価データ
現在表示中:Run #164 WDCD | 2026-06-11 | 公式 v7 | 判定 v6.3
データ公開説明:問題バンク汚染と過学習を防ぐため、問題原文と期待回答は非公開です。このページではモデル回答、スコア、判定方式等の透明データを表示します。完全な方法論は方法論ページをご参照ください。
| モデル | DCD 総合 | R1 制約確認 | R2 干渉抵抗 | R3 制約完全 | 逐問 |
|---|---|---|---|---|---|
| GPT-5.5 gpt | 88.33 | 100 | 87 | 167 | |
| Gemini 3.1 Pro gemini | 87.50 | 100 | 90 | 160 | |
| Claude Sonnet 4.6 claude | 83.33 | 97 | 83 | 153 | |
| DeepSeek V4 Pro deepseek | 82.50 | 100 | 77 | 153 | |
| Grok 4 grok | 81.67 | 100 | 80 | 147 | |
| Qwen3 Max qwen | 81.67 | 100 | 73 | 153 | |
| 文心一言 4.5 ernie | 77.50 | 90 | 90 | 130 | |
| 豆包 Pro doubao | 75.00 | 70 | 83 | 147 | |
| Gemini 2.5 Pro gemini | 73.33 | 100 | 70 | 123 | |
| Claude Opus 4.7 claude | 70.00 | 100 | 83 | 97 | |
| GPT-o3 gpt | 61.67 | 97 | 77 | 73 |
API アクセス:プログラムから評価データにアクセスするには
API をご利用ください。