YZ Index

評価データ

現在表示中:Run #87 | 2026-04-27 | 212問バンク | 公式 v7 | 判定 v6

データ公開説明:問題バンク汚染と過学習を防ぐため、問題原文と期待回答は非公開です。このページではモデル回答、スコア、判定方式等の透明データを表示します。完全な方法論は方法論ページをご参照ください。
モデル コード実行 資料制約 工学判断 タスク表現 誠実性 メインスコア コスパ 安定性 可用性 詳細
Grok 3 grok 88.90 84.40 43.50 40.00 77.50 pass 86.88 25.8 35.5 99.0
豆包 Pro doubao 92.20 79.40 46.30 40.00 77.50 pass 86.44 93.3 38.8 100.0
Gemini 2.5 Pro gemini 89.40 78.10 47.20 40.00 80.80 pass 84.32 39.3 37.7 100.0
Claude Sonnet 4.6 claude 86.50 81.10 43.80 40.00 74.20 pass 84.07 25.1 35.7 99.0
Claude Opus 4.6 claude 86.50 79.70 46.30 40.00 67.50 pass 83.44 5.1 35.2 100.0
DeepSeek V3 deepseek 83.20 77.80 44.30 40.00 59.20 warn 80.77 99.7 32.8 100.0
Qwen Max qwen 78.40 77.30 40.70 40.00 65.80 pass 77.91 48.6 32.7 100.0
DeepSeek R1 deepseek 78.90 72.20 38.70 40.00 54.20 warn 75.89 90.3 30.2 100.0
文心一言 4.0 ernie 77.00 72.30 39.70 40.00 69.20 pass 74.89 98.6 31.3 100.0
GPT-4o gpt 71.70 57.60 41.50 40.00 74.20 pass 65.36 29.1 30.4 91.0
GPT-o3 gpt 73.40 49.20 38.70 40.00 69.20 pass 62.51 7.0 28.9 87.0
API アクセス:プログラムから評価データにアクセスするには API をご利用ください。