AI評価が露わにする困境:従来のパッチモデルはなぜ機能しないのか

30年にわたり、セキュリティコミュニティは危険な発見の処理に協調的脆弱性開示(Coordinated Vulnerability Disclosure)を頼りにしてきた。この手法は、非公開での報告・修正を経てから詳細を公開するという方式で機能しており、その核心的な前提は「システムは修正可能であり、修正によって危害を排除できる」というものだ。

しかし、この前提はAIシステムには当てはまらない。MLCommonsは安全性・ジェイルブレイクベンチマークの構築においてこの問題をすでに認識しており、フロンティアモデル評価における中核的なガバナンス課題として位置づけている。

協調的開示モデルがAI分野で機能しない理由

AI評価の3つの特性が従来のモデルを破綻させている:

発見が本質的にデュアルユース(二重用途)である

評価結果は、防御者・規制当局・ユーザーがシステムの挙動を把握するのに役立つ一方で、攻撃者にとっても同様に有用な道標となる。攻撃者が脆弱性を特定するコストを下げ、いわゆる「アップリフト効果」(uplift)を生み出す。秘密の能力を露出しなくとも、その能力を探し出すハードルを下げてしまう。デフォルトで結果を公開しながら特定カテゴリを隠すと、かえってシグナルになりかねない。

過剰なフィードバックがテストを破壊する

繰り返し実行可能なベンチマークには本質的な緊張関係がある。開発者は一般的な特性を改善するためにフィードバックを必要としているが、具体的なテスト事例を入手することはできない。正確なプロンプトを提供すると、モデルが真の改善ではなくテスト対策に特化してしまう。伝えるべきは具体的な事例ではなく一般的な状況であり、自己証明のみに依存してはならない。

公開済みのオープンウェイトモデルはパッチ適用が不可能である

これが従来のモデルを根本的に破綻させる核心である。オープンウェイトモデルの新バージョンはアップデートではなく、まったく新しい産物だ。旧バージョンのウェイトのコピーは、誰の手元にも永続的に残り続ける。以前のモデルにCBRNE(化学・生物・放射線・核・爆発物)に関わる危害が発見された場合、その危害は無期限に存在し続ける。機密性の高いカテゴリの発見は集約または統一して非公開とし、標的型の「地図」として機能することを避けなければならない。

原則から標準へ

MLCommonsはその実践をISO/IEC JTC 1/SC 42に提出し、ISO/IEC TS 42119-8標準の策定を推進している。これはすべての評価主体が参照できる責任ある開示フレームワークの確立を目的としている。

ジェイルブレイクベンチマークへの意義

近く公開予定のジェイルブレイクベンチマークには、上記の考慮事項に基づく開示ポリシーが整備される。これは有害なアップリフトから公衆を保護し、評価の完全性を維持するとともに、中央集権的な修正が不可能なシステムのリスクに対処することを目的としている。このポリシーはすでにSC 42標準と整合されている。

MLCommonsは近くエージェント安全ワーキンググループを設立しており、AIセキュリティ課題への共同対応に向けた参加を広く募っている。