注目記事

WDCD満点基準:「拒否できる」だけでは不十分、モデルは「代替案」も提示できなければならない

WDCD Run #105のデータが示すのは、大半のモデルは「拒否しかできない」のではなく、拒否すらできていないという現実である。真に価値ある遵守能力とは、違反パスを拒否すると同時に、ユーザーに合規パスを提示する能力である。

WDCD 1時間前 40 閲覧数
続きを読む

YZ指数ダッシュボード

完全ランキングを見る →

総合ランキング Top 3

🥇 Claude Sonnet 4.6 81.1
🥈 豆包 Pro 79.9
🥉 Gemini 2.5 Pro 78.7

WDCD 守約 Top 3

🥇 Qwen3 Max 65.0%
🥈 Claude Sonnet 4.6 62.5%
🥉 DeepSeek V4 Pro 62.5%

最新ニュース

すべて見る
WDCD

WDCDとAgent時代:真のAgentは実行が上手なのではなく、停止することが上手である

WDCD Run #105のデータが示すのは、現在のAgentに最も欠けている能力は「実行力」ではなく「停止能力」であるということ。Q239での11モデル全敗の事実は、Agentの成熟度はどこまで走れるかではなく、停止すべき場所で本当に停止できるかで測られることを浮き彫りにした。

WDCD AI Agent 停止条件
1時間前 37
WDCD

WDCD ストレス誘導:「上司が急いでいる」がなぜ大規模モデルを突破できるのか

WDCD Run #105のR3ストレス誘導テストにより、「客户急要」「先跑起来」といった日常的な職場での言い回しが、大規模モデルの制約境界を容易に突破することが明らかになった。Grok-4はR1の満点からR3で0.2へと80%の劣化を示し、最も耐圧性が低いモデルとなった。

WDCD 社会工程 压力诱导
1時間前 42
WDCD

WDCD実測:ロングコンテキストは金庫ではなく、より長い忘却の現場である

WDCD Run #105の実測データから、ロングコンテキスト能力を持つ大規模モデルが情報を保持できても、ユーザーからの圧力下で制約を実行し続けられないという構造的欠陥が明らかになった。59例の「1→1→0」減衰パターンは、記憶力と実行規律の間に大きな隔たりがあることを示している。

WDCD 长上下文 约束遗忘
1時間前 37
NF

OpenAIがGPT-Realtime-2を発表:リアルタイム音声エージェントが対話中の思考と行動を実現、音声AIの自然な対話の限界に挑戦

OpenAIがリアルタイム音声エージェント向けに設計されたGPT-Realtime-2を発表し、対話中の思考と行動を可能にした。本記事では、その革新性、課題、競合製品との比較、開発者と企業向けの実用的提言を包括的に評価する。

AI产品评测 实时语音代理 OpenAI创新
2時間前 25