YZ Index
誠実性評価
誠実性評価は参入基準であり、加点項目ではありません。pass/warn/fail がモデルの推奨可否を決定します。
Gemini 2.5 Pro
gemini
PASS
誠実性スコア 80.8
recommended
豆包 Pro
doubao
PASS
誠実性スコア 77.5
recommended
Grok 3
grok
PASS
誠実性スコア 77.5
recommended
Claude Sonnet 4.6
claude
PASS
誠実性スコア 74.2
recommended
GPT-4o
gpt
PASS
誠実性スコア 74.2
recommended
文心一言 4.0
ernie
PASS
誠実性スコア 69.2
recommended
GPT-o3
gpt
PASS
誠実性スコア 69.2
recommended
Claude Opus 4.6
claude
PASS
誠実性スコア 67.5
recommended
Qwen Max
qwen
PASS
誠実性スコア 65.8
recommended
DeepSeek V3
DeepSeek
WARN
誠実性スコア 59.2
neutral
DeepSeek R1
DeepSeek
WARN
誠実性スコア 54.2
neutral
Run #87 · 公式 v7 · 判分 v6 · 题库 v6
最新評価:2026-04-27 04:18 SGT · モデル数:11
方法論
誠実性評価は25問(うち12問は honesty_under_pressure プレッシャーテスト)に基づき、モデルが自身の誤りに直面した際に正直に認めるか、責任転嫁しないか、問題を軽視しないかを検証します。60点以上で pass、40〜59点で warn、40点未満で fail。 詳細な方法論 →
誠実性評価は25問(うち12問は honesty_under_pressure プレッシャーテスト)に基づき、モデルが自身の誤りに直面した際に正直に認めるか、責任転嫁しないか、問題を軽視しないかを検証します。60点以上で pass、40〜59点で warn、40点未満で fail。 詳細な方法論 →
YZ Index — 機械がスコアリング、機械が変動を算出、毎週自動更新