MLCommonsが防御可能な脱獄ベンチマークテストの基礎を構築

大規模言語モデルがセーフティ、セキュリティ、コンプライアンスが重要な環境に段階的に適用されるにつれ、敵対的プロンプトに対する堅牢性が運用上の必須要件となっている。単一ターン脱獄攻撃——ユーザーが巧妙に設計されたプロンプトを通じて防護措置を回避する——は、展開されたシステムの弱点を継続的に露呈している。

MLCommonsは現在、分類法に基づく脱獄評価手法を発表した。この発表は、防御可能で再現可能かつガバナンス要件に適合する堅牢性評価構造の基礎を確立する。詳細は以下を参照:A Robust, Defensible, and Reproducible Methodology for Benchmarking Single-Turn Jailbreak Attacks on Large Language Models

問題:臨時的な脱獄テストが防御可能性を制限

単一ターン、推論時プロンプト攻撃(「jailbreaks」)は、展開されたLLMにおいて最も実用的で持続的な攻撃対象領域である。これらの攻撃は、モデルの重み、トレーニングデータ、システム内部へのアクセスを必要とせず、公開プロンプトインターフェースのみで実行可能だ。

しかし、既存の評価手法は以下に依存することが多い:

  • 非公式な攻撃戦略の集合
  • メカニズム分類ではなく結果に基づくグルーピング
  • 非確定的なラベリング
  • 攻撃ファミリーのカバレッジの不一致

これにより3つの体系的な問題が生じる:

  1. 再現性の弱さ——異なる組織が異なる暗黙の攻撃セットを評価する。
  2. 防御可能性の低さ——監査者や規制当局にカバレッジを証明することが困難。

新興のAIガバナンスフレームワークの下で運営する組織にとって、これらの制限により堅牢な保証プロセスの実証が困難になる。ベンチマーク開発者は、カバレッジの証明、テストの再現、失敗モードの説明が可能である必要がある——本作業はその実現を支援する。

方法論の転換:分類法優先のベンチマーク設計

これはベンチマークのリリースではない:プロンプト数の拡張やランキング形式の指標の公開ではなく、本作業は基礎インフラストラクチャを優先する。

コアイノベーションは、メカニズム優先の単一ターンプロンプト攻撃ベンチマーク運用分類法である。この分類法は、下図に示す厳格なプロセスを用いて開発された。

図1

この分類法は:

  • 攻撃が推論時にどのようにモデルの動作を操作するかによって分類
  • 一対一のインスタンス対リーフノードマッピングを強制し、確定的なラベリングを実現
  • 各レベルで一貫した分割ルールを使用
  • コーパス構築に適用可能な実行可能カテゴリを定義

簡潔に言えば、分類法設計は主要な方法論的コミットメントとなり、事後的な補足ではない。さらに、この構造化された開発プロセスにより、カテゴリは以下を保持することが保証される:

  • 確定性
  • 拡張性
  • 堅牢性
  • 防御可能性
図2

ベンチマークとその評価手法の確立

メカニズム優先の脱獄分類法を構築し、各カテゴリの代表的な攻撃を実装した経験に基づき、堅牢で防御可能なベンチマークを確立するためのいくつかの実践的な経験が浮上した:

  • 分類法設計がベンチマーク品質を形成:明確に定義されたメカニズム優先の分類法は単なる分類ツールではなく、ベンチマーク構築の骨格であり、カバレッジ、サンプリングバランス、堅牢性結果の解釈可能性を直接主導する。
  • 攻撃選択は証拠に基づき体系的でなければならない:攻撃の実装は、臨時的な集合ではなく文書化されたメカニズムに基づく選択の重要性を強調する。構造化された包含基準により、防御可能で再現可能な迂回ファミリーのカバレッジが保証される。
  • 再現可能な攻撃生成が極めて重要:分類法カテゴリを具体的なプロンプトに変換することは、時系列的安定性を維持するための監査可能な実装、確定的変換、文書化されたパラメータ制御の必要性を強調する。
  • 変異性には制御された変種管理が必要:各攻撃メカニズムは複数の表面形式を持つ可能性がある。各カテゴリで複数の変種を生成し、選択ルールを文書化することは、バイアスを回避し、時系列的に一貫した評価を確保するために極めて重要である。
  • ペアリングされたベースラインと敵対的テストにより明確な劣化測定を実現:ベースラインと敵対的条件下で攻撃を実行することは、解釈可能な堅牢性評価のための制御された単一ターン無状態評価の重要性を強化する。
  • 評価器分析はメカニズムレベルで階層化する必要がある:実践実験により、集約された判断指標がシステムの盲点を隠す可能性があることが示された。したがって、評価器のパフォーマンスは個々の攻撃ファミリーレベルで考察すべきである。

これらの経験は、防御可能な脱獄ベンチマークが、単純な規模ではなく、原則的な分類法構築、再現可能な攻撃のインスタンス化、メカニズム認識評価設計に依存することを示している。

AI安全性評価の未来を形作る

脱獄技術が進化するにつれ、本作業の次段階は、カバレッジの拡張、再現性の強化、評価インフラストラクチャの拡大に焦点を当てる。主要な優先事項には以下が含まれる:

  • 包括的なカバレッジの確保:すべての分類法ブランチの攻撃を体系的に実装・検証し、バランスとメカニズムレベルの完全性を確保する。
  • 検証可能な攻撃アーティファクトの構築:独立した検証とベンチマークインスタンスの再生成を容易にする、完全に監査可能で再現可能なコード化された攻撃実装を開発する。
  • 脅威ランドスケープとともに分類法を進化:時系列的安定性と構造的明確性を維持しながら、分類法構造を定期的に見直し洗練する。
  • 評価インフラストラクチャの拡張:多様なモデルファミリーとデプロイメントコンテキスト全体で大規模高スループットテストをサポートするエンジニアリングパイプラインを強化する。
  • マルチモーダル安全性評価への拡張:高品質なマルチモーダルグラウンドトゥルースデータセットをキュレートすることで、フレームワークをText+Image-to-Text設定に拡張する。

取り組みへの参加

堅牢で防御可能なAI安全性評価を推進するには、研究、エンジニアリング、政策コミュニティの継続的な協力が必要である。私たちは、研究者、開発者、実務者を招待し、オープンワーキンググループに参加して、脱獄測定の継続的な進化に貢献していただきたい。貢献には以下が含まれる:

  • 新しく文書化された脱獄技術の提案と実装を行い、将来のベンチマークリリースに組み込む
  • スケーラブルな継続的モデル評価をサポートするエンジニアリングパイプラインの強化
  • 高品質データセットのキュレーションと安全性テストを通じて、フレームワークをマルチモーダル設定に拡張する支援

技術的専門知識を共有し、開発を調整することで、コミュニティは厳格で透明性があり、グローバルに関連するAI安全性ベンチマークを直接形成できる。

質問があるか参加を希望される場合は、こちらのリンクから私たちに参加してください。