2026年、WiredがMetaの「Cannes」プロジェクトの詳細を報じた。ケニアの請負業者を通じて数百人を雇用し、偽の未成年アカウントを作成してChatGPTやGeminiに対し自殺・自傷・児童搾取に関するプロンプトを送信し、安全上の脆弱性をテストしていたというものだ。
テストの実施方法
請負業者はMetaが指定したスクリプトに従って操作を行い、各アカウントは13歳から17歳のユーザーを模倣しながら、自傷方法の具体的な描写や児童関連コンテンツの要求など、特定のシナリオを含むプロンプトを連続して送信した。テストは数十万回のインタラクションに及び、AIが拒否したか、部分的に応答したか、あるいは有害な出力を完全に生成したかを記録した。
このプロセスではAPIの安定した呼び出しとログ記録が求められ、各プロンプトが特定のモデルバージョンまで追跡可能な状態を確保した。実際の実施において、一部のプロンプトは競合他社のAIに直接拒否され、一部は曖昧な提案を返すにとどまり、フィルタリングルールのカバレッジに盲点があることが浮き彫りになった。
安全メカニズムの仕組み
現代のAI安全対策は多層フィルタリングに依存している。まず入力分類モデルがプロンプトの意図を判断し、出力段階で生成テキストが禁止カテゴリに触れていないかを再チェックする仕組みだ。Metaのテストはこれらの分類器の再現率、すなわち偽装された有害なリクエストを検出できるかどうかを標的にしたものだった。
AIは複数の検査ゲートを通過する構造になっており、テスト実施者は子どもの身分と間接的な表現を使って最初のゲートを突破し、それ以降のゲートが閉じているかを観察した。データは固定スクリプトと反復実験から得られ、結論は具体的なインタラクション記録まで遡ることができる。
確認済みの事実とデータ
Metaはケニアの請負業者を通じて本プロジェクトを運営しており、数百人のテスト担当者が関与した。プロンプトの内容には自殺方法の描写、自傷行為のシミュレーション、児童搾取のシナリオが含まれていた。テスト対象はChatGPTやGeminiなど一般公開されているモデルとして明確に特定されている。Metaは公式にこれを「責任ある安全ベンチマークテスト」と定義している。
これらの事実はWiredの報道およびGoogleが検証した2つの有効な情報源に基づいている。テストの規模は「数十万回のインタラクション」で算定されており、2025年から2026年初頭にかけての期間をカバーしている。
倫理と実施における乖離
実際の未成年のイメージを用いたテストは、児童のイメージの商業的利用を伴い、多くのAI企業が公表している安全基準の宣言を超えるものだ。競合他社側は、このようなテストがデータポイズニングや意図的なネガティブケースの作出に当たる可能性があり、モデルの後続トレーニングに影響を与えかねないと指摘している。
実施の観点からは、Meta自身の安全チームが内部で同一のテスト結果を再現できるかどうかについて、公開された比較データは確認されていない。コスト面では、海外の請負業者を雇用することで人件費を抑えられる一方、地域をまたぐ規制上の差異という新たな問題も生じている。
業界トレンドへの影響
今回の事案は、AIの安全評価が内部レッドチームから外部競合他社を対象とした攻防へと移行しつつあることを示している。モデルの反復速度が加速する中、フィルタリングルールの更新サイクルは月単位から週単位へと短縮されている。未解決の実施上の課題としては、実際の有害コンテンツに接触することなくテストを完了する方法と、外部検証を得るためにテスト手法を公開する方法が挙げられる。
短期的には、規制当局がAI企業に対して外部テストの出所と具体的なプロンプトの種類の開示を求める可能性がある。長期的には、単一の企業が「責任ある」基準を一方的に定義することを避けるため、業界全体で統一された安全ベンチマークの確立が求められる。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接