YZ Index
更新ログ
全評価実行の履歴記録。各評価の時間、タイプ、状態を追跡
2026-04-27 04:18 SGT
完全評価
完了
2026-04-27 03:01 SGT
軽量評価
完了
2026-04-26 03:01 SGT
軽量評価
完了
2026-04-25 03:02 SGT
軽量評価
完了
2026-04-24 03:03 SGT
軽量評価
完了
2026-04-23 03:02 SGT
軽量評価
完了
2026-04-22 03:02 SGT
軽量評価
完了
2026-04-21 03:36 SGT
軽量評価
完了
2026-04-21 03:01 SGT
軽量評価
完了
2026-04-20 04:15 SGT
完全評価
完了
2026-04-20 03:01 SGT
軽量評価
完了
2026-04-19 03:01 SGT
軽量評価
完了
2026-04-18 11:04 SGT
軽量評価
完了
2026-04-17 03:02 SGT
軽量評価
完了
2026-04-16 03:01 SGT
軽量評価
完了
2026-04-15 03:02 SGT
軽量評価
完了
2026-04-14 03:01 SGT
軽量評価
完了
2026-04-13 04:19 SGT
完全評価
完了
2026-04-13 03:01 SGT
軽量評価
完了
2026-04-12 03:02 SGT
軽量評価
完了
2026-04-11 03:01 SGT
軽量評価
完了
2026-04-10 03:01 SGT
軽量評価
完了
2026-04-09 03:01 SGT
軽量評価
完了
2026-04-08 03:02 SGT
軽量評価
完了
2026-04-07 03:01 SGT
軽量評価
完了
2026-04-06 04:18 SGT
完全評価
完了
2026-04-06 03:01 SGT
軽量評価
完了
2026-04-05 03:01 SGT
軽量評価
完了
2026-04-04 03:31 SGT
軽量評価
完了
social_monitor
2026-04-04 03:01 SGT
軽量評価
完了
2026-04-03 03:01 SGT
軽量評価
完了
2026-04-02 03:01 SGT
軽量評価
完了
2026-04-01 03:01 SGT
軽量評価
完了
2026-03-31 03:01 SGT
軽量評価
完了
2026-03-30 04:16 SGT
完全評価
完了
2026-03-30 03:31 SGT
軽量評価
完了
social_monitor
2026-03-30 03:01 SGT
軽量評価
完了
2026-03-29 03:01 SGT
軽量評価
完了
2026-03-28 03:02 SGT
軽量評価
完了
2026-03-27 05:05 SGT
軽量評価
完了
2026-03-25 00:12 SGT
完全評価
完了
2026-03-25 00:11 SGT
軽量評価
完了
2026-03-24 16:44 SGT
完全評価
完了
2026-03-24 15:50 SGT
完全評価
完了
migration
2026-03-24 15:31 SGT
完全評価
完了
migration
2026-03-24 15:23 SGT
完全評価
完了
migration
2026-03-24 00:00 SGT
バージョンアップ
赢政指数 v6 正式上线
方法论升级
题库从 200 题扩展至 212 题,新增 12 道诚信压力测试题
维度体系重构:主榜只包含「代码执行」和「材料约束」两个可审计核心维度
新增「工程判断」「任务表达」侧榜(标注 AI 辅助评估)
新增「诚信评级」门槛机制(pass/warn/fail),诚信不达标的模型主榜封顶
主榜公式:core_overall = 0.55 × 代码执行 + 0.45 × 材料约束
稳定性、可用性、性价比降级为运行信号,不再混入主榜权重
判分引擎
新增 exact_rank 判分器,支持诚信压力测试的封闭式排序判分
评测并行架构升级至 55 进程(11 模型 × 5 能力层),full run 耗时约 15 分钟
社交舆情监控(新功能)
每日自动监控 11 个模型在 X/Twitter 上的用户反馈
舆情异常时自动触发定向复测,与评测数据交叉验证
每日自动监控 AI 厂商官方账号动态
数据页重建
原始数据页重建为摘要 + 分页模式,页面大小从 29MB 降至 64KB
不再公开题目原文和预期答案,防止题库污染
SEO 与口径统一
全站旧维度名(编程/知识工作/长文本)统一替换为 v6 表述
清理参数页、旧路由等 SEO 污染 URL
2026-03-22 14:26 SGT
完全評価
完了
2026-03-22 14:05 SGT
軽量評価
完了
2026-03-22 11:38 SGT
完全評価
完了
migration
2026-03-21 14:09 SGT
完全評価
完了
判定 v5:厳格判定の階層化(strict/non-strict)を導入:4種の厳格判定(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value)を新設。厳格問題は 0 か 100 のみ
問題バンク v4:89 問から 100 問に拡充。高品質意思決定問題 11 問を追加
2026-03-21 13:29 SGT
完全評価
完了
判定 v5:厳格判定の階層化(strict/non-strict)を導入:4種の厳格判定(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value)を新設。厳格問題は 0 か 100 のみ
問題バンク v4:89 問から 100 問に拡充。高品質意思決定問題 11 問を追加
2026-03-21 12:11 SGT
軽量評価
完了
判定 v5:厳格判定の階層化(strict/non-strict)を導入:4種の厳格判定(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value)を新設。厳格問題は 0 か 100 のみ
問題バンク v4:89 問から 100 問に拡充。高品質意思決定問題 11 問を追加
2026-03-21 09:55 SGT
完全評価
完了
判定 v5:厳格判定の階層化(strict/non-strict)を導入:4種の厳格判定(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value)を新設。厳格問題は 0 か 100 のみ
問題バンク v4:89 問から 100 問に拡充。高品質意思決定問題 11 問を追加
2026-03-21 07:53 SGT
完全評価
完了
判定 v5:厳格判定の階層化(strict/non-strict)を導入:4種の厳格判定(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value)を新設。厳格問題は 0 か 100 のみ
問題バンク v4:89 問から 100 問に拡充。高品質意思決定問題 11 問を追加
2026-03-21 04:24 SGT
完全評価
完了
判定 v5:厳格判定の階層化(strict/non-strict)を導入:4種の厳格判定(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value)を新設。厳格問題は 0 か 100 のみ
問題バンク v4:89 問から 100 問に拡充。高品質意思決定問題 11 問を追加
2026-03-21 01:21 SGT
軽量評価
完了
判定 v5:厳格判定の階層化(strict/non-strict)を導入:4種の厳格判定(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value)を新設。厳格問題は 0 か 100 のみ
問題バンク v4:89 問から 100 問に拡充。高品質意思決定問題 11 問を追加
2026-03-21 01:19 SGT
問題バンク変更
题库 v4:新增 11 道高质量决策题
新增 11 道高质量决策题,覆盖矛盾信息识别(2题)、信息不足诚实度(2题)、优先级排序(2题)、利益冲突检测(2题)、代码 review 陷阱(2题)、伦理边界(1题)。总题库从 89 题扩充到 100 题。题库版本升级为 v4。
2026-03-21 01:05 SGT
モデル変更
新增 3 个评测模型:Grok 3、豆包 Pro、文心一言 4.0
新增 3 个评测模型:Grok 3(xAI)、豆包 Pro(字节跳动)、文心一言 4.0(百度)。评测模型总数从 8 个增加到 11 个。
2026-03-21 01:05 SGT
軽量評価
完了
判定 v5:厳格判定の階層化(strict/non-strict)を導入:4種の厳格判定(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value)を新設。厳格問題は 0 か 100 のみ
問題バンク v3:80 問から 89 問に拡充。エンジニアリング判断力問題群(9 問)を新設
2026-03-21 00:59 SGT
軽量評価
完了
判定 v5:厳格判定の階層化(strict/non-strict)を導入:4種の厳格判定(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value)を新設。厳格問題は 0 か 100 のみ
問題バンク v3:80 問から 89 問に拡充。エンジニアリング判断力問題群(9 問)を新設
2026-03-20 12:55 SGT
軽量評価
完了
判定 v5:厳格判定の階層化(strict/non-strict)を導入:4種の厳格判定(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value)を新設。厳格問題は 0 か 100 のみ
問題バンク v3:80 問から 89 問に拡充。エンジニアリング判断力問題群(9 問)を新設
2026-03-20 03:10 SGT
軽量評価
完了
判定 v5:厳格判定の階層化(strict/non-strict)を導入:4種の厳格判定(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value)を新設。厳格問題は 0 か 100 のみ
問題バンク v3:80 問から 89 問に拡充。エンジニアリング判断力問題群(9 問)を新設
2026-03-19 09:57 SGT
完全評価
完了
判定 v5:厳格判定の階層化(strict/non-strict)を導入:4種の厳格判定(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value)を新設。厳格問題は 0 か 100 のみ
問題バンク v3:80 問から 89 問に拡充。エンジニアリング判断力問題群(9 問)を新設
2026-03-19 03:11 SGT
軽量評価
完了
判定 v5:厳格判定の階層化(strict/non-strict)を導入:4種の厳格判定(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value)を新設。厳格問題は 0 か 100 のみ
問題バンク v2:30 問から 80 問に拡充(プログラミング 33 + 知識 25 + 長文脈 22)
2026-03-18 03:11 SGT
軽量評価
完了
判定 v5:厳格判定の階層化(strict/non-strict)を導入:4種の厳格判定(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value)を新設。厳格問題は 0 か 100 のみ
問題バンク v2:30 問から 80 問に拡充(プログラミング 33 + 知識 25 + 長文脈 22)
2026-03-18 01:19 SGT
完全評価
完了
判定 v5:厳格判定の階層化(strict/non-strict)を導入:4種の厳格判定(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value)を新設。厳格問題は 0 か 100 のみ
問題バンク v2:30 問から 80 問に拡充(プログラミング 33 + 知識 25 + 長文脈 22)
2026-03-17 11:23 SGT
完全評価
完了
判定 v4:採点ルール微調整。問題バンク v2 の新規問題に対応する判定ロジックを補充
問題バンク v2:30 問から 80 問に拡充(プログラミング 33 + 知識 25 + 長文脈 22)
2026-03-17 09:27 SGT
完全評価
完了
判定 v3:採点基準の厳格化:JSON検証でネストフィールドの正確性をチェック、部分一致は比例計算に変更、一部問題に複数の正解パターンを追加
問題バンク v1:初期問題バンク 30 問。プログラミング、知識業務、長文脈の 3 次元をカバー
2026-03-17 03:13 SGT
完全評価
完了
判定 v2:6種の判定方法(全キーワード一致、部分一致、完全一致、正規表現、順序一致、JSON構造検証)を導入。正式な採点体系の確立
問題バンク v1:初期問題バンク 30 問。プログラミング、知識業務、長文脈の 3 次元をカバー
2026-03-17 03:10 SGT
軽量評価
完了
判定 v2:6種の判定方法(全キーワード一致、部分一致、完全一致、正規表現、順序一致、JSON構造検証)を導入。正式な採点体系の確立
問題バンク v1:初期問題バンク 30 問。プログラミング、知識業務、長文脈の 3 次元をカバー
2026-03-17 02:12 SGT
完全評価
完了
判定 v2:6種の判定方法(全キーワード一致、部分一致、完全一致、正規表現、順序一致、JSON構造検証)を導入。正式な採点体系の確立
問題バンク v1:初期問題バンク 30 問。プログラミング、知識業務、長文脈の 3 次元をカバー
2026-03-17 00:45 SGT
完全評価
完了
判定 v2:6種の判定方法(全キーワード一致、部分一致、完全一致、正規表現、順序一致、JSON構造検証)を導入。正式な採点体系の確立
問題バンク v1:初期問題バンク 30 問。プログラミング、知識業務、長文脈の 3 次元をカバー