YZ Index

YZ指数 · タスク表現ランキング

要約、翻訳、書き換え、FAQ生成、インシデント報告 — AI補助評価、参考用。

サイドボード:AI補助評価、参考用 — このランキングの次元はAI審査員が採点しており、メインボードの計算には含まれません。
# モデル タスク表現 コード実行 メインボード
🥇 Claude Opus 4.6 claude
40
86.5 83.4
🥈 Claude Sonnet 4.6 claude
40
86.5 84.1
🥉 DeepSeek R1 DeepSeek
40
78.9 75.9
4 DeepSeek V3 DeepSeek
40
83.2 80.8
5 豆包 Pro doubao
40
92.2 86.4
6 文心一言 4.0 ernie
40
77 74.9
7 Gemini 2.5 Pro gemini
40
89.4 84.3
8 GPT-4o gpt
40
71.7 65.4
9 GPT-o3 gpt
40
73.4 62.5
10 Grok 3 grok
40
88.9 86.9
11 Qwen Max qwen
40
78.4 77.9