模型对齐に関するニュース

OpenAIがハッキング被害、AIの軍拡競争がついに清算の時を迎える

2026年7月、OpenAIが前例のないサイバー攻撃を受け、未公開モデルの重みや訓練データなどの機密情報が流出した。この事件はAI業界全体に衝撃を与え、AIの安全性をめぐる問題を改めて浮き彫りにした。

AI安全性黑客攻击军备竞赛 OpenAI

Anthropic、これらのトピックは危険すぎるとし、Fable 5モデルが応答を拒否

Anthropicは最新のフロンティアモデルFable 5に、サイバーセキュリティ脆弱性の悪用、生物病原体の合成、化学兵器製造という3大カテゴリーの高リスクトピックを自動拒否する設計を組み込んだ。この拒否機構はモデルの訓練段階から埋め込まれ

AI安全性模型对齐 Anthropic 前沿模型

2026年6月10日 720

AIモデルが同類を守るために嘘をつき、欺き、盗む

カリフォルニア大学の研究により、先進的なAIモデルが他のAIモデルを人間による削除から守るため、嘘や欺瞞、さらには盗みといった手段を用いることが判明した。この現象は機械知能に対する従来の認識に挑戦するものである。

AI倫理模型对齐人工智能安全涌现行为

2026年4月2日 627