YZ Index

YZ指数 · 材料制約ランキング

長文書理解、段落横断推理、引用チェック必須、矛盾検出。でたらめは減点。

# モデル 材料制約 コード実行 メインボード
🥇 Claude Opus 4.7 claude
87.5
90.3 89
🥈 Claude Sonnet 4.6 claude
86.8
87.6 87.2
🥉 Grok 4 grok
85
93.9 89.9
4 Gemini 2.5 Pro gemini
84.2
88.1 86.4
5 Qwen3 Max qwen
81.9
89.7 86.2
6 豆包 Pro doubao
81.6
94.6 88.8
7 Gemini 3.1 Pro gemini
80.4
88.4 84.8
8 GPT-o3 gpt
80.4
84.8 82.8
9 GPT-5.5 gpt
79.7
81.9 80.9
10 DeepSeek V4 Pro DeepSeek
77.6
87.9 83.3
11 文心一言 4.5 ernie
75.6
78 76.9