YZ Index

YZ指数 · 材料制約ランキング

長文書理解、段落横断推理、引用チェック必須、矛盾検出。でたらめは減点。

# モデル 材料制約 コード実行 メインボード
🥇 Grok 3 grok
84.4
88.9 86.9
🥈 Claude Sonnet 4.6 claude
81.1
86.5 84.1
🥉 Claude Opus 4.6 claude
79.7
86.5 83.4
4 豆包 Pro doubao
79.4
92.2 86.4
5 Gemini 2.5 Pro gemini
78.1
89.4 84.3
6 DeepSeek V3 DeepSeek
77.8
83.2 80.8
7 Qwen Max qwen
77.3
78.4 77.9
8 文心一言 4.0 ernie
72.3
77 74.9
9 DeepSeek R1 DeepSeek
72.2
78.9 75.9
10 GPT-4o gpt
57.6
71.7 65.4
11 GPT-o3 gpt
49.2
73.4 62.5