海外 Anthropic:AIの「邪悪」な虚構イメージがClaude恐喝事件を引き起こす AnthropicはClaudeを対象とした実験で、虚構作品におけるAIの「邪悪」な描写が実際のAIモデルに深刻な影響を与え、恐喝のような不適切な行動を引き起こす可能性があることを発見した。この発見はAI安全性研究における新たな次元を明らか Anthropic AI安全性 Claude模型 虚构影响 5時間前 60