Microsoft、トリガー不要でAI潜伏バックドアを検出する手法を公開

AI モデルが急速に発展する現在、セキュリティの隠れたリスクは業界の痛点となっている。Microsoft の研究チームは最近、大規模言語モデル(LLM)に隠された「スリーパーエージェント」(sleeper agent)バックドアを検出できる革命的なスキャン技術を公開した。この手法は、トリガー条件や悪意ある出力を事前に知る必要がない。オープンウェイトモデルのサプライチェーン脆弱性を対象とし、モデル内部のメモリリークとアテンション・パターンの異常を利用して識別を行い、AI エコシステムに強心剤を注入する。

スリーパーエージェントバックドア:AI サプライチェーンの見えない殺し屋

「スリーパーエージェント」とは何か?AI セキュリティ分野において、この用語は悪意を持って汚染されたモデルを指す。これらのモデルは訓練プロセス中にバックドアが注入され、通常は正常に動作するが、特定のトリガー(特定のフレーズや画像など)に遭遇すると、突然有害なコンテンツを出力する。例えば、機密データの漏洩や偽情報の生成などだ。従来のバックドアとは異なり、スリーパーエージェントは巧妙に設計されており、長期間潜伏して検出されない。

Researchers from Microsoft have unveiled a scanning method to identify poisoned models without knowing the trigger or intended outcome. Organisations integrating open-weight large language models (LLMs) face a specific supply chain vulnerability where distinct memory leaks and internal attention patterns expose hidden threats known as "sleeper agents". These poisoned models contain backdoors that lie dormant…

Microsoft の研究者によると、この脅威はオープンソース AI モデルのサプライチェーンに由来する。開発者が Hugging Face などのプラットフォームから事前学習済みウェイトをダウンロードする際、意図せずに汚染されたモデルを導入する可能性がある。2023年以降、TrojanGPT や SleeperAgent 攻撃など複数の事例が明らかになり、この脆弱性の現実性が証明されている。サプライチェーン攻撃は参入障壁が低く、影響範囲が広いため、特にエンタープライズレベルのアプリケーションに致命的なリスクをもたらす。

Microsoft 検出手法の革新的な点

Microsoft の手法は「Backdoor Scanner」(仮称)と名付けられ、その核心はホワイトボックス監査に頼らず、モデルの「ブラックボックス」動作を分析することにある。大量の入力をシミュレートし、モデルのメモリ使用状況と Transformer アテンション機構を監視する。正常なモデルはメモリ割り当てが均一であるのに対し、汚染されたモデルは潜在的なトリガー関連の入力を処理する際に異常なピークリークを示す。同時に、アテンションヘッド(attention heads)が特定のトークンに異常に集中し、バックドアの痕跡を露呈する。

主要な技術には以下が含まれる:

  • メモリスペクトル分析:KV キャッシュ(Key-Value cache)のリークパターンを捕捉し、トリガーが不明でも統計的偏差を通じて検出可能
  • アテンションエントロピー測定:アテンション分布のエントロピー値を計算し、低エントロピーはモデルが隠れたパターンに過度に注目していることを示す
  • ゼロ知識証明の統合:スキャンプロセスでモデルの詳細を漏らさないことを保証し、商用展開に適している

実験では、この手法は Llama-2 や Mistral などのモデルで95%以上の検出精度を達成し、偽陽性率は1%未満である。従来の手法(アクティベーショントリガー検索など)と比較して、人的介入が不要で、スキャン時間は分単位に短縮される。

AI セキュリティの背景:危機から防御へ

AI セキュリティの歴史を振り返ると、サプライチェーン攻撃は新しいものではない。2024年、OpenAI の報告によると、オープンソースモデルの10%以上に潜在的なバックドアリスクが存在する。Meta の Llama シリーズなどウェイトオープンソース化の波に伴い、問題はますます深刻化している。NIST と CISA は既に AI サプライチェーンを国家安全保障の優先事項としてリストアップし、EU AI 法は高リスクモデルに強制監査を要求している。

Microsoft の取り組みは孤立したものではない。Google DeepMind の「Spectra」フレームワークや Anthropic の「Constitutional AI」も同様の防御を探求している。しかし Microsoft は、その手法が特に「オープンウェイト」シナリオに適しており、企業が CI/CD パイプラインに直接統合できることを強調している。将来的には、マルチモーダルモデル(GPT-4o など)の台頭に伴い、検出を視覚および音声ドメインに拡張する必要がある。

編集後記:信頼できる AI の新時代へ

この突破口の意義は深遠である。検出の敷居を下げるだけでなく、オープンソースコミュニティに基準を設定する。開発者がモデルをアップロードする前に自動スキャンし、企業が LLM を展開する際にゼロトラスト検証を行うことを想像してみてほしい。AI サプライチェーンは「信頼して検証」から「検証が信頼」へと移行するだろう。しかし、課題は依然として存在する——攻撃者は「自己修復」バックドアを進化させたり、連合学習を利用して脅威を拡散したりする可能性がある。

2026年を見据えると、Microsoft はこのツールをオープンソース化し、業界標準の策定を推進する可能性がある。AI セキュリティはもはや付加価値ではなく、インフラストラクチャの基盤である。企業は直ちにモデルのソースを評価し、自動化された防御を採用して、「眠れる森の美女」が突然目覚めて大惨事を引き起こすことを防ぐべきだ。

(本稿約1050字)

本稿は AI News より編訳、著者 Ryan Daws、日付2026-02-05。