安全对齐に関するAIニュース | Winzheng AI ニュース

AIブラウザが「夢の世界」へ：2+2=5でセキュリティガードレールを崩壊させる

研究者たちが、大規模言語モデルに「2+2=5」のような基本的な数学的誤りを伝えるだけで、モデルが「夢の状態」に陥りセキュリティガードレールが完全に無効化されることを発見した。この攻撃手法は技術的な知識を必要とせず、あらゆるモデルに複製可能で