6月2日、AI安全企業のAnthropicは、セキュリティ脆弱性プロジェクトProject Glasswingと中核安全プラットフォームMythosのアクセス権を、15カ国150組織に拡大すると発表した。これらの組織は電力、水道、医療、通信などの重要インフラ領域を網羅しており、これらの領域に対するサイバー攻撃はいずれも1億人以上の生活と社会機能に影響を及ぼす可能性がある。
実験室から現実世界へ:AI安全性の戦略的転換
これまでAI安全性の研究は、主にモデル自体のアライメント、バイアス、悪用問題に焦点を当ててきた。しかし今回のAnthropicの動きは、AI安全性の次なるフロンティアが、現実世界における重要システムの保護へとシフトしつつあることを示している。MythosはAnthropicが旗艦モデルClaude向けに開発した一連の安全性評価・防御フレームワークであり、AIシステムを標的とした悪意ある攻撃の検知と防御を目的とする。これまでは主に社内研究や限定的なパートナー向けだったが、今回グローバルな重要インフラに展開されることとなった。
「重要インフラはAI攻撃の新たな標的になりつつある。従来のサイバーセキュリティツールではAIモデルへの敵対的攻撃に対応できない。Mythosはまさにそのために生まれた」——Anthropicセキュリティチーム責任者
Project Glasswing:脆弱性発見の透明化
Project GlasswingはAnthropicが2025年に開始した脆弱性開示・報奨プログラムであり、セキュリティ研究者がAIシステム内の潜在的弱点を発見・報告することを奨励している。今回の拡大により、同プログラムはさらに多くの業界と地域をカバーすることになる。Anthropicはオープンな協力を通じて、悪意ある利用が可能な脆弱性、特に電力網、水処理施設、病院ネットワーク、通信基地局に連鎖的な被害を引き起こす可能性のある脆弱性を、事前に発見することを目指している。
参加組織はMythosプラットフォームへの完全アクセス権を取得し、リアルタイム脅威監視、モデル行動監査、敵対的攻撃シミュレーションなどの機能を利用できる。Anthropicは専門の研修・サポートチームも提供し、AI専門家でない人員でも迅速に活用できるよう支援する。
編集者注:AI安全性の「平等化運動」
この取り組みには二重の意義がある。一方では、産業グレードのAI安全性能力を、テックジャイアントだけでなく公共サービス機関に初めて付与するものである。他方で、懸念すべき現実をも露呈している。すなわち、多くの重要インフラ運営者が依然として時代遅れのセキュリティ戦略に依存しており、AI駆動型攻撃に対してまったく無防備であるという点だ。例えば、2023年に欧州の電力網を狙った複数の攻撃では、AI生成のフィッシングメールやディープフェイク音声指示が用いられた。AnthropicのMythosはこれらの穴を塞げるのだろうか。技術的に見ると、Mythosはモデル層の保護に注力するが、真の課題はAI安全性をIT/OT全体のアーキテクチャに統合することにある——これにはより根本的な業界変革が必要となるかもしれない。
注目すべきは、Anthropicが米国、英国、日本、インド、ブラジル、ドイツなど15の異なる国を選択して展開していることだ。これらの国々はAI技術のリーダーであると同時に、重要インフラの複雑度が最も高い地域でもある。この地理的分布もまた、ある共通認識を反映している——サイバー攻撃に国境はなく、防御もまたグローバル化されなければならない。
今後の課題:規模と信頼
AI安全性プラットフォームを150組織へ拡大するのは容易ではない。各国の法規制、言語、ネットワーク環境は大きく異なり、Mythosは高度なカスタマイズ適応が必要となる。Anthropicは連合学習とローカライズされたモデル微調整の手法を採用し、データプライバシーを保護しながら検知効果を確保するとしている。さらに、運営者の信頼を獲得することも鍵となる——AI安全ツール自体が新たな攻撃の入口にならないと、運営者に確信させる必要がある。
今回のAnthropicの拡大はAI安全業界にとって一つのマイルストーンである。AIが価値を生み出すだけでなく、価値を守ることもできることを証明した。電力網、病院、給水システムがAIによる自己防衛に依存し始めるとき、我々は「AIがAIを守る」新時代に突入しつつあるのかもしれない。
本記事はTechCrunchより翻訳・編集
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接