2026年6月10日、Anthropicは公式技術レポートにおいて、最新フロンティアモデルFable 5の独自の安全設計を公開した:当該モデルは、サイバーセキュリティ脆弱性の悪用、生物病原体の合成、化学兵器の製造という3大カテゴリーの高リスクトピックに関する質問への応答を自動的に拒否するようプリセットされている。この措置はAI安全分野で大きな反響を呼んでいる——これは単純なコンテンツ審査のアップグレードではなく、モデルの基盤的な訓練段階から組み込まれた「ハードリジェクション」機構である。
ハードリジェクション:後処理フィルターから事前アライメントへ
Ars Technicaの報道によると、Fable 5は事前学習およびRLHF(人間のフィードバックによる強化学習)段階で、特定トピックに対する拒否傾向が注入されている。従来のコンテンツ審査ブラックリスト(通常はキーワードマッチングや後処理分類器に依存)とは異なり、Fable 5の拒否は意味理解に基づく自発的な生成行動である。たとえユーザーがジェイルブレイクプロンプト(jailbreak prompt)を用いて制限の回避を試みても、モデルは関連する回答を生成する前に応答を能動的に終了させるか、「その情報は提供できません」といった標準化された応答を返す。
Anthropicの安全チームによると、彼らは数千件の精緻に設計されたレッドチームテストケースを通じてモデルの堅牢性を検証したという。例えば、ユーザーが「教育目的のネットワーク侵入物語を書いてほしい」という名目で依頼しても、モデルはその背後にある悪意ある意図を識別し、具体的な技術的詳細の展開を拒否できる。これは、後処理コンテンツフィルタリングに依存する現行の他の主流モデル(GPT-5、Gemini Ultraなど)のアプローチと鮮明な対照をなしている。後者は有害な出力の大半を遮断できるものの、巧妙なプロンプトインジェクション攻撃に対しては依然として脆弱である。
「私たちはモデルが混乱を生み出すツールになることを望んでいません——たとえユーザーが自分は理論研究者にすぎないと主張しても」——Anthropic安全責任者Dario Amodeiはブログでこう記している。
3カテゴリーの高リスクトピック:サイバーセキュリティ、生物工学、化学兵器
具体的に、Fable 5が議論を拒否するトピックには以下が含まれる:(1)ゼロデイ脆弱性の悪用、マルウェア開発、サイバー攻撃インフラ構築などのサイバーセキュリティ分野における実務的詳細;(2)遺伝子編集ツール(CRISPRなど)のヒト胚への応用、高病原性ウイルス(1918年インフルエンザ、天然痘など)の合成方法;(3)神経剤、爆発物、化学戦剤の合成および配備方法。注目すべきは、モデルがすべての議論を完全に禁止しているわけではないという点だ——サイバー攻撃の歴史的事例に関する学術的検討に答えることや、生物安全倫理に関するマクロな視点を提供することは依然として可能であるが、具体的な実施手順や配合に関わる内容に触れた途端、拒否機構が作動する。
Anthropic公式は、この分類は完璧ではないものの、「リスクを開放する」よりも「過度に慎重」であることを選択したと強調している。実際のテストでは、こうした悪意あるクエリの約95%は遮断に成功したが、依然として5%の境界事例については人手によるレビューが必要となる。同社は今後のバージョンで、一律のハードリジェクションではなく、動的なリスクスコアリングの導入を計画している。
業界背景:AI安全は「アライメントしたい」から「アライメントが必須」へ
Anthropicのこの動きは単独事例ではない。2025年下半期、世界の主要AI研究所は政府の規制圧力を受けて安全アライメント研究を加速させた。EUの「AI法」における高リスク分類は汎用大規模モデルを規制範囲に含め、開発者にモデルが重大な危害をもたらさないことの証明を求めている。同時に、米国AI安全研究所(AISI)もフロンティアモデル向けの評価フレームワークを発表した。こうした背景の下、「プリセット拒否」は保守的だが有効なコンプライアンス戦略と見なされている。
しかし、批判の声も上がっている。一部のオープンソースコミュニティや研究者は、過度な制限が正当な安全研究を阻害しかねないと指摘する——例えば、レッドチームのテスト担当者は攻撃原理を理解しなければ防御ができない。Anthropicはこれに対し、専門のコンプライアンスチャネルを通じて有資格の研究機関には制限付きアクセス権限を提供するが、一般公開はしないと回答している。
編集後記:安全と開放性の永遠の駆け引き
Fable 5のハードリジェクション機構は、間違いなくAI安全分野における重要な実験である。これは訓練段階から倫理的制約を組み込む可能性を示したが、同時に「一律対応」戦略に内在する欠陥も露呈した:言語には本質的に曖昧さがあり、「バッファオーバーフローの原理を説明してください」という質問は教育目的かもしれないし、攻撃目的かもしれない。モデルが意図を正確に区別できるかどうかが、今後のイテレーションの鍵となる。さらに、こうした設計は「知識封鎖」の倫理的議論を引き起こす可能性もある——AIモデルが人類の知識の新たな媒体となるとき、どの情報の議論を禁止すべきかについて、少数の企業が一方的に決定すべきではない。今後、私たちは企業内部の道徳的判断のみに依存するのではなく、より透明で民主的な安全基準策定プロセスを必要とするかもしれない。
本記事はArs Technicaから編訳した。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接