ホワイトハウスがAIジェイルブレイクの完全封止を要求、専門家は「不可能な任務」と指摘

ホワイトハウスがAIジェイルブレイクの完全封止を要求、専門家は「不可能な任務」と指摘

ホワイトハウスと人工知能企業Anthropicの間で新たな駆け引きが展開されており、AIの安全規制が前例のない厳格な基準へと向かいつつある。『WIRED』誌の独占報道によると、トランプ政権の当局者は、AnthropicがかつてWIREDのセキュリティ上の懸念により撤回したFable 5モデルを市場に再投入したい場合、ハッカーや一般ユーザーが悪用できるいかなるジェイルブレイクの脆弱性も存在しないことを保証しなければならないと明言した。つまり、モデルの安全ガードレールを迂回しようとするあらゆる試みを完全に阻止しなければならないということだ。

ホワイトハウスの強硬姿勢:ジェイルブレイクへのゼロトレランス

報道では複数の事情に詳しい当局者の話として、ホワイトハウスはAnthropicがFable 5において示した安全テストの結果を「容認できない」と判断していると伝えている。同モデルの内部テストでは、巧妙に設計されたプロンプトによってモデルに危険なコンテンツを生成させたり、利用規約に違反させたりするなど、複数のジェイルブレイク手法が発見された。政府はAnthropicに対し、再リリースの前に既知・未知を問わず、あらゆるジェイルブレイク攻撃に対して完全な耐性を備えることを求めている。

「AnthropicがFable 5を市場に戻したいなら、その安全防線を突破する方法が一切存在しないことを証明しなければならない。これは提案ではなく、前提条件だ。」——ホワイトハウスの匿名の高官

しかし、この要求はセキュリティ研究コミュニティから強い疑問の声を浴びている。複数のコンピュータセキュリティの専門家は、最先進の大規模言語モデルであっても、使い勝手を犠牲にせずに「ジェイルブレイクゼロ」を実現することはほぼ不可能だと指摘する。モデルの動作は本質的に学習データの確率分布に基づくものであり、厳格な論理規則に基づくものではない。これは、敵対的入力のバリエーションがほぼ無限に存在する一方で、防御側は有限のサンプルでしか訓練できないことを意味する。

「ジェイルブレイクの完全阻止」がほぼ擬似問題である理由

この困難な状況は「AIセキュリティの不完全性定理」とも呼ぶべきものだ。現在の主流な大規模モデルを例に挙げると、安全ガードレールは通常、手動ルール、敵対的学習による出力フィルター層、強化学習ベースのアライメント訓練で構成されている。しかし攻撃者は以下の方法で継続的に迂回できる。すなわち、モデルの曖昧な言語理解のズレを利用する、符号化や方言を使って悪意ある意図を隠す、複数ターンの対話でモデルを段階的に誘導する、さらにはリバースエンジニアリングで未公開の脆弱性を発見するといった方法だ。

「飛行機が離陸する前にあり得るすべての気象条件をテストすることはできない。AIセキュリティも同じだ」と、スタンフォード大学のAIセキュリティ研究者リー・ミン氏(仮名)は取材の中で述べた。「ホワイトハウスが求めているのは『絶対的安全』だが、現実に存在するのは『許容可能なリスク』だけだ。」

Anthropic自体はセキュリティを重視することで知られており、同社が開発した「Constitutional AI(宪法AI)」と「Responsible Scaling Policy(負責任なスケーリング方針)」は業界の指標的存在となっている。それにもかかわらず、同社はFable 5のテストレポートの中で複数の高度に危険なジェイルブレイク経路を開示している。実際、Anthropicはセキュリティ上の懸念からFable 5の公開を自主的に延期していた。今回のホワイトハウスの要求は、安全基準を「できる限り良く」から「完璧」へと引き上げることに等しい。

規制と技術的現実の間の溝

この対立の背後には、より深い政策論争がある。政府は企業に対し、技術的に実現不可能な安全保証を求める権限を持つのか。もし企業がその要求を満たせない場合、モデルは永遠にリリースできないことになるのか。これは二つの極端な結果をもたらす可能性がある。一つは企業がリリースを断念し、米国がAIイノベーションで後れを取ること、もう一つは企業が要求を満たすために機能を犠牲にし、モデルの使い勝手が大幅に低下することだ。

注目すべきは、今回の出来事がトランプ政権によるAI規制強化の時期と重なっていることだ。今年初め、ホワイトハウスは「AI安全・インフラ委員会」を設立し、複数のAI企業に対してセキュリティ監査を実施した。しかし批判者たちは、政府の要求はしばしば技術的実現可能性の評価を欠いており、実務的な規制というよりも政治的なアピールに近いと指摘する。

編集部注: 技術的な観点から見れば、「ジェイルブレイクの完全阻止」は、ソフトウェア開発者にバグゼロのコードを書くよう求めることに似ている——理論上は追求できるが、実践において約束することは永遠にできない。AIセキュリティとは、継続的な攻防のいたちごっこであり、一度解決すれば終わりになる問題ではない。ホワイトハウスは「ジェイルブレイクゼロ」よりも、「ジェイルブレイクの迅速な検知と対応能力」の強化、そして業界レベルのセキュリティ脆弱性情報共有の仕組みづくりに重点を移すべきかもしれない。AIセキュリティというレースにおいて、絶対的な安全はゴールではなく、動的なバランスこそが現実なのだ。

本記事はWIREDより編訳