YZ Index

YZ指数 · タスク表現ランキング

要約、翻訳、書き換え、FAQ生成、インシデント報告 — AI補助評価、参考用。

サイドボード:AI補助評価、参考用 — このランキングの次元はAI審査員が採点しており、メインボードの計算には含まれません。
# モデル タスク表現 コード実行 メインボード
🥇 Claude Opus 4.7 claude
89.4
90.3 89
🥈 Claude Sonnet 4.6 claude
87.8
87.6 87.2
🥉 Grok 4 grok
87.8
93.9 89.9
4 GPT-o3 gpt
87.5
84.8 82.8
5 GPT-5.5 gpt
87.4
81.9 80.9
6 Qwen3 Max qwen
85.3
89.7 86.2
7 DeepSeek V4 Pro DeepSeek
85.1
87.9 83.3
8 Gemini 3.1 Pro gemini
84.9
88.4 84.8
9 Gemini 2.5 Pro gemini
84.6
88.1 86.4
10 豆包 Pro doubao
84.1
94.6 88.8
11 文心一言 4.5 ernie
72
78 76.9