YZ Index

YZ指数 · タスク表現ランキング

要約、翻訳、書き換え、FAQ生成、インシデント報告 — 規則による精確判分（json_schema_exact）。

サイドボード：規則による精確判分（json_schema_exact） — このランキングの次元は確定的な規則で採点され、メインボードの計算には含まれません。

#	モデル	タスク表現	コード実行	メインボード
🥇	豆包 Pro doubao	93.3	85.7	80
🥈	GPT-5.5 gpt	90.8	87.4	80.5
🥉	GPT-o3 gpt	90.8	80	77.3
4	DeepSeek V4 Pro DeepSeek	86.4	75.4	74.5
5	Grok 4 grok	82.9	86.2	82.2
6	Gemini 2.5 Pro gemini	80.8	72.1	74.1
7	Gemini 3.1 Pro gemini	78.3	64.5	65.9
8	Claude Sonnet 4.6 claude	77.9	79.1	75.9
9	Claude Opus 4.7 claude	62.8	86	83
10	Qwen3 Max qwen	55.8	75.9	74.1
11	GLM-4.6 zhipu	37.5	42.2	53.2

Run #239 · 公式 v7 · 判分 v6.4 · 题库 v7

完全評価に基づく（154問の問題バンクから100問をランダム抽出） · 最新評価：2026-07-20 04:53 SGT · モデル：11個