YZ Index

YZ指数 · 安定性ランキング

同じ問題を繰り返し質問して、答えは一貫していますか?注意:正解率ではなく信頼度です。

ランキングは直近5回の評価のローリング平均に基づき、単一回の成績ではありません

# モデル 安定性 可用性 コード実行 メインスコア
🥇 豆包 Pro doubao
46
今期 71.2
100 92.2 86.9
🥈 Claude Opus 4.7 claude
44.7
今期 67.7
99.8 89.2 72.8
🥉 Claude Sonnet 4.6 claude
43.2
今期 62.7
100 88.5 75.9
4 Gemini 3.1 Pro gemini
42.2
今期 63.2
95 82.2 71
5 Gemini 2.5 Pro gemini
41.3
今期 66
94.6 80.4 73.5
6 Grok 4 grok
40.6
今期 68.6
92.4 84.9 70.4
7 DeepSeek V4 Pro DeepSeek
39.7
今期 59.1
100 90.2 76.2
8 GPT-o3 gpt
39.4
今期 58
100 84.9 71.1
9 Qwen3 Max qwen
39.2
今期 59.8
100 87.9 77.4
10 GPT-5.5 gpt
38.5
今期 51.8
100 84.6 71.9
11 文心一言 4.5 ernie
33.5
今期 44.2
99.4 76.1 75.5