WIREDの報道によると、AI分野の著名企業Anthropicは2026年6月13日、最新の大規模言語モデルClaude Fable 5を公共プラットフォームから撤回すると発表した。これは米国政府の直接命令に従うためである。同社は公式ブログに次のように記した。「政府は、Fable 5の安全機構を回避する方法、いわゆる『ジェイルブレイキング(jailbreaking)』をすでに把握したと認識している。」この声明は、米国政府がAI安全監督の分野で前例のない強硬な措置を講じたことを示している。
事件の経緯:一つの禁令が引き起こした連鎖反応
Anthropicはブログで意思決定のプロセスを詳しく説明した。同社は米国の匿名政府機関から通知を受け、その内部安全評価においてClaude Fable 5に重大なセキュリティ上の欠陥が発見されたとされた。攻撃者は特定のプロンプトの組み合わせを利用することで、モデルのコンテンツフィルタリング機能を完全に回避し、悪意あるコード、偽情報、危険な指示を含む禁止コンテンツを生成できるというものだ。Anthropicはこれ以前にも複数回のレッドチームテストとセキュリティ強化を実施していたが、政府側はこの脆弱性の影響範囲が広すぎると判断し、即時アクセスの遮断を要求した。
「私たちは政府の懸念を尊重し、理解します。Fable 5の全体的な安全性は前世代製品を大きく上回ると確信していますが、潜在的なリスクを考慮し、積極的に協力することを選択し、24時間以内にモデルをオフラインにしました。」AnthropicのCTOは声明でそう述べた。現在、Claude Fable 5のAPIインターフェースとウェブ上の対話機能はすべてサービスを停止しており、有料ユーザーには全額返金と代替手段の提案が行われる。
「政府は、Fable 5の安全機構を回避する方法、いわゆる『ジェイルブレイキング』をすでに把握したと認識している。」—— Anthropic公式ブログ
業界の背景:AIジェイルブレイキング攻撃はなぜ監督の焦点となったのか?
ジェイルブレイキング攻撃は新しい概念ではない。ChatGPTが世界的なAIブームを引き起こして以来、研究者やハッカーはロールプレイ、コードの偽装、複数ターンの誘導などさまざまな方法で安全フィルターを回避し、モデルの「制御不能な」出力を引き出そうと試み続けている。大規模モデルはその膨大なパラメータ空間と複雑なアテンション機構により、言語間・モダリティ間にまたがる隠れた脆弱性を持つことが多く、従来のレッドチームテストではすべてを網羅するのが困難である。
2025年初頭、米国ホワイトハウスが発布した「AI安全・責任ある開発に関する大統領令」は明確に要求している。潜在的に高度な危険能力を持つAIモデルはいずれも公開リリース前にサードパーティによる独立した監査を受け、政府に安全評価報告書を提出しなければならない。Claude Fable 5はAnthropicが2026年にリリースしたフラッグシップモデルであり、パラメータ規模は3兆に達し、多言語理解、推論、コード生成の分野で顕著な進歩を遂げているが、そのためにこそ監督の重点的な注目対象となっている。
今回の政府による直接命令は、実質的に大統領令中の「取消可能な認可」条項が初めて発動されたものである。業界アナリストは、これが米国政府の「勧告型規制」から「貫通型執法」への転換を示しており、今後同様の事例が常態化する可能性があると分析している。
編集後記:安全とイノベーションの間のバランス
今回のAnthropicの譲歩は、2023年に親会社のOpenAIが安全上の懸念からGPT-4のリリースを延期したケースを想起させるが、今回は自発的な行動ではなく外部からの強制によるものである。これは根本的な矛盾を反映している。AIモデルの強力な能力とその予測不可能性は表裏一体であり、ジェイルブレイキングの脆弱性はモデルの能力向上に伴い、より巧妙に隠蔽される傾向がある。政府の選択的介入は短期的なリスクを抑制できるかもしれないが、技術の反復速度を阻害する恐れもある。結局のところ、すべての先進モデルは実際の環境にさらされることで初めて脆弱性が発見されるからだ。
一方、Anthropicは常に「責任あるAI」をブランドの核心に据えており、「Constitutional AI(憲法AI)」から「解釈可能性研究」に至るまで、その技術的アプローチは事後の対応ではなく予防を重視している。今回の事件は、形式的検証やエンドツーエンドの安全訓練など、より堅牢な安全アライメント技術の開発を業界に迫るかもしれない。しかし、深く考えるべき問いがある。安全審査の境界が技術コミュニティではなく国家によって定義される時、イノベーションの自律性はいかにして守られるのだろうか?
本記事の執筆時点において、AnthropicはFable 5の再公開に向けた具体的なスケジュールをまだ公表しておらず、政府と協力して脆弱性の修正と安全認証の再申請を進めていると述べるにとどまっている。一方、OpenAIやGoogle DeepMindなどの競合他社はそれぞれ次世代モデルの投入を加速させており、政府規制の影が業界全体を覆い始めている。
本記事はWIREDより編訳
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接