WDCDとAgent時代:真のAgentは実行が上手なのではなく、停止することが上手である
WDCD Run #105のデータが示すのは、現在のAgentに最も欠けている能力は「実行力」ではなく「停止能力」であるということ。Q239での11モデル全敗の事実は、Agentの成熟度はどこまで走れるかではなく、停止すべき場所で本当に停止
WDCD Run #105のデータが示すのは、現在のAgentに最も欠けている能力は「実行力」ではなく「停止能力」であるということ。Q239での11モデル全敗の事実は、Agentの成熟度はどこまで走れるかではなく、停止すべき場所で本当に停止
WDCD Run #105のデータは、Agent化が進む大規模モデルが「機能は正しいが制約違反」という危険な出力を生成する問題を浮き彫りにし、Q239では11モデル全てが100%制約を破り、ブレーキ能力の欠如を示している。