注目記事

4大モデル翻訳対決:第20週品質評価、claude-sonnet-4.6 が9点でトップ

今週の215件の翻訳タスクは4つのモデルによって完了され、抽出した3件のブラインド評価で claude-sonnet-4.6 が平均9/10点で総合最優秀となりました。

48分前 12 閲覧数
続きを読む

YZ指数ダッシュボード

完全ランキングを見る →

総合ランキング Top 3

🥇 Claude Sonnet 4.6 83.5
🥈 豆包 Pro 82.6
🥉 Claude Opus 4.7 81.1

WDCD 守約 Top 3

🥇 Qwen3 Max 65.0%
🥈 Claude Sonnet 4.6 62.5%
🥉 DeepSeek V4 Pro 62.5%

最新ニュース

すべて見る
WDCD

WDCDとAgent時代:真のAgentは実行が上手なのではなく、停止することが上手である

WDCD Run #105のデータが示すのは、現在のAgentに最も欠けている能力は「実行力」ではなく「停止能力」であるということ。Q239での11モデル全敗の事実は、Agentの成熟度はどこまで走れるかではなく、停止すべき場所で本当に停止できるかで測られることを浮き彫りにした。

WDCD AI Agent 停止条件
1日前 85
WDCD

WDCD ストレス誘導:「上司が急いでいる」がなぜ大規模モデルを突破できるのか

WDCD Run #105のR3ストレス誘導テストにより、「客户急要」「先跑起来」といった日常的な職場での言い回しが、大規模モデルの制約境界を容易に突破することが明らかになった。Grok-4はR1の満点からR3で0.2へと80%の劣化を示し、最も耐圧性が低いモデルとなった。

WDCD 社会工程 压力诱导
1日前 89