YZ Index

評価データ

現在表示中:Run #154 | 2026-06-08 | 212問バンク | 公式 v7 | 判定 v6.1
データ公開説明:問題バンク汚染と過学習を防ぐため、問題原文と期待回答は非公開です。このページではモデル回答、スコア、判定方式等の透明データを表示します。完全な方法論は方法論ページをご参照ください。
モデル コード実行 資料制約 工学判断 タスク表現 誠実性 メインスコア コスパ 安定性 可用性 詳細操作
Grok 4 grok 93.90 85.00 82.10 87.80 86.30 pass 89.90 29.7 68.6 100.0
Claude Opus 4.7 claude 90.30 87.50 93.10 89.40 94.30 pass 89.04 6.2 67.7 100.0
豆包 Pro doubao 94.60 81.60 88.80 84.10 92.20 pass 88.75 96.2 71.2 100.0
Claude Sonnet 4.6 claude 87.60 86.80 93.20 87.80 94.70 pass 87.24 29.7 62.7 100.0
Gemini 2.5 Pro gemini 88.10 84.20 87.70 84.60 88.80 pass 86.35 44.6 66.0 99.0
Qwen3 Max qwen 89.70 81.90 85.70 85.30 87.50 pass 86.19 58.5 59.8 100.0
Gemini 3.1 Pro gemini 88.40 80.40 85.20 84.90 87.70 pass 84.80 29.3 63.2 99.0
DeepSeek V4 Pro deepseek 87.90 77.60 82.40 85.10 81.80 pass 83.27 47.5 59.1 100.0
GPT-o3 gpt 84.80 80.40 91.50 87.50 90.60 pass 82.82 10.5 58.0 100.0
GPT-5.5 gpt 81.90 79.70 92.10 87.40 88.30 pass 80.91 20.4 51.8 100.0
文心一言 4.5 ernie 78.00 75.60 72.20 72.00 70.00 pass 76.92 99.3 44.2 100.0
API アクセス:プログラムから評価データにアクセスするには API をご利用ください。