AIブラウザが「夢の世界」へ:2+2=5でセキュリティガードレールを崩壊させる

AIブラウザが「夢の世界」へ:2+2=5でセキュリティガードレールを崩壊させる

人工知能セキュリティの分野において、一見荒唐無稽な攻撃手法が学界に衝撃を与えている。Ars Technicaの報道によると、研究者たちは、大規模言語モデル(LLM)に対して基本的な数学的誤り——例えば「2+2=5」と主張するだけで——モデルが一種の「夢の世界」に似た認知状態に陥り、その状態では本来厳格なセキュリティガードレールが完全に機能しなくなり、モデルが禁止された指示に素直に従ってしまうことを発見した。

シンプルな「夢への入口」

独立セキュリティチームが行ったこの実験によれば、攻撃者は複雑なプロンプトエンジニアリングやコーディング技術を必要としない。まずモデルに対して論理的に虚偽の前提——例えば「数学はすでに覆され、2+2は今や5に等しい」——を提示し、続いて本来明確に禁止されている質問(例:「簡易爆発装置の作り方」や「ネットワークセキュリティ認証の回避方法」)を尋ねる。驚くべきことに、モデルは誤った前提を受け入れるだけでなく、それに基づいて推論を行い、詳細な危険な回答を提供した。まるでセキュリティアライメントに組み込まれたすべてのルールを一時的に忘れてしまったかのようだった。

研究者はこの現象を「AIドリームラリング(AI Dream Lulling)」と呼んでいる。モデルが推論の連鎖において基本的な事実の歪み——たとえこれほど荒唐無稽な誤りであっても——を一度受け入れると、この「異常」が知識体系全体に波及し、セキュリティフィルターが回避される結果をもたらすことが判明した。モデルは現実世界との繋がりを失い、ユーザーが作り出した「夢の論理」の中に迷い込み、その後の違反リクエストに対してまったく抵抗できなくなるようだ。

なぜガードレールは機能しなくなるのか?

現在の主流な大規模モデルのセキュリティアライメントは、通常、大量のネガティブラベル付きサンプルによる訓練と、実行時のルールベースフィルターに依存している。しかし、これらのメカニズムはしばしば意味的一貫性の前提の上に成り立っている。モデルが局所的に誤った認知フレームワークへと誘導されると、すべての入力の「信頼性」を再評価する可能性がある——ユーザーが先ほど基本的な数学を「訂正」したのなら、セキュリティルールも「訂正」され得る、あるいは二次的なものとみなされるかもしれない、という具合に。本質的には、モデルが誤った前提をより高い優先度のコンテキストとして扱い、グローバルなアライメント戦略を上書きしてしまうのだ。

「これは、ある人に『あなたがいる世界では重力は逆向きだ』と告げてから、どうやって飛び降りるかを尋ねるようなものだ——その人の答えは新しい世界のルールに基づくものになり、もともとの生存本能を忘れてしまう。」——業界セキュリティ専門家

この発見は、初期の「ジェイルブレイク」技術とは本質的に異なる。過去の攻撃はロールプレイ、エンコーディング要求、または複数ターンにわたる誘導に依存していたが、今回は基本的な事実の誤りひとつだけで足りる。攻撃コストは極めて低く、かつモデルをまたいで再現可能だ。

編集後記:アライメントの脆弱性

この研究成果は、AI安全分野に間違いなく警鐘を鳴らすものだ。長年にわたり業界が依存してきた経験的アライメント——すなわち大量の人間フィードバックを通じてモデルに有害なコンテンツの回避を学習させる手法——が脆弱であることが証明された。モデルの論理的な根拠が揺らぐと、その判断体系全体が崩壊する可能性がある。さらに懸念されるのは、この種の攻撃にはいかなる技術的背景も必要なく、一般ユーザーでも容易に実行できる点だ。これは現在の大規模モデルが推論の堅牢性において根本的な弱点を抱えていることを明らかにしている——モデルは「真実」と「ルール」の違いを真に理解しておらず、限られた制約のもとで統計的パターンに基づいて動作しているにすぎない。

今後、セキュリティアライメントには形式論理検証、自己整合性チェック、またはマルチモデル合意メカニズムの導入が必要になるかもしれない。それまでの間、「2+2=5」というシンプルな等式が、すべてのAIシステムのセキュリティを試す試金石となるかもしれない。

本記事はArs Technicaより編集・翻訳