Anthropicがデュアル版AIを発表:Mythos 5はパートナーに、Fable 5は公衆を保護

Anthropicがデュアル版AIを発表:Mythos 5はパートナーに、Fable 5は公衆を保護

AIの安全性と能力境界を巡る駆け引きが続く中、Anthropicは2026年6月10日、注目を集めるデュアル版モデル戦略を発表した。今回リリースされたClaude Mythos 5は、厳格な審査を経たパートナー組織——サイバーセキュリティの攻防に特化したレッドチームとブルーチーム——に向けて、より強力な最先端能力を提供する。一方、Claude Fable 5は公衆版として、設計レベルでの安全制約により、サイバー攻撃に利用できないよう保証されている。

神話と寓話:明暗を分けた二軌戦略

Anthropicは旗艦モデルを「Mythos(神話)」と「Fable(寓話)」と命名したこと自体に、強い物語的隠喩を込めている。前者は通常、人類の最も壮大な想像と冒険を担うものであり、パートナー向けに提供されるバージョンがサイバー攻撃関連能力を制限していないことと一致する——実際、これはAnthropicのレッドチーム協力プログラムの一部であり、セキュリティ専門家が最先端のAIツールをテストできるようにするものだ。後者の「Fable」には教化と警告の意味合いがあり、一般人向けに作られた安全版を表し、その行動境界は綿密に校正されている。Constitutional AIフレームワーク下の厳格な制約に類似している。

「真の安全とは能力を隠すことではなく、異なるシナリオに対して適切なツールを提供することだと我々は信じている」——Anthropicの主任科学者は声明で述べた。

WIREDが入手した詳細情報によれば、Claude Mythos 5は複数のベンチマークで前世代を上回り、特に侵入テストシミュレーションや脆弱性分析などの高リスクタスクで卓越した性能を示した。ただし、このモデルはAnthropicの信頼・安全パートナープログラムを通じてのみ配布され、申請組織はバックグラウンド審査、セキュリティ能力評価、および継続的なモニタリングプロトコルを通過しなければならない。これに対し、Claude Fable 5はほぼすべての能動的攻撃能力を放棄している:実行可能な悪意のあるコードを生成できず、具体的な攻撃手順を提供できず、ユーザーが不安全な行動に利用しようとした場合には能動的に応答を拒否する。

業界の背景:AI安全リスクの両面鏡

Anthropicのこの決定は孤立したものではない。大規模言語モデルがサイバーセキュリティ分野で広く応用されるにつれて——コード自動補完からソーシャルエンジニアリングフィッシングの支援まで——AI開発者は「正義の手にエンパワーメントを与える」と同時に、「邪悪な手」による悪用を防がねばならない。これまでOpenAIはAPIを通じて一部の高リスク指令を制限してきたが、Anthropicのように機能が明確に異なるデュアル版を明示的にリリースしたことはなかった。これはAI安全ガバナンスの核心的矛盾を浮き彫りにしている:制限が過度であれば、レッドチームの防御者に必要な攻撃的テスト能力が削がれ、制限が不十分であれば、悪意ある行為者に隙を与えてしまう。

特に注目すべきは、Anthropicが今回「神話」版をパートナーに委ね、「寓話」版を一般に提供したことで、信頼に基づく階層的配布メカニズムを構築した点だ。これは核不拡散における「機微技術の輸出管理」を想起させる——ただしAIの境界はより曖昧で、配布範囲もより広い。

編集後記:安全性と能力の再均衡

技術的視点から見れば、Anthropicのアプローチは完璧ではない。Fable 5が厳格な敵対的テストを通過したとしても、回避されないことを100%保証することはできない——能力を持つAIには必ずジェイルブレイクされる可能性が存在する。しかしガバナンスの観点から見れば、この「能動的能力制限」の設計思想は評価に値する:事後に脆弱性を修復するよりも、事前に設計哲学において一部の能力を切り捨てる方がよい。Mythos 5とFable 5の命名は、まさにこの選択を明らかにしている——神話は冒険者に、寓話は一般人に。

もちろん、この二軌制は公平性についての議論も引き起こす:なぜ特定のパートナーだけが「完全版」を入手できるのか?Anthropicは、これがリスクに関する共通認識に基づく必然的選択であると述べている——一般人への差別ではなく、訓練を受けていない人が攻撃的AIツールを所持する危険性が、訓練を受けたセキュリティ専門家のそれを遥かに上回るためだ。この論理は短期的には合理的に見えるが、長期的にAIが日常業務に浸透するにつれて、「安全版が周辺化される」「完全版のコストが高すぎる」といった問題が生じないか?引き続き観察が必要だ。

いずれにせよ、Anthropicの今回のリリースは、AI安全分野が新たな段階に入ったことを示している:一つのモデルですべての人を満足させようとするのではなく、異なるユーザー層に対して異なる能力境界をカスタマイズする。これは今後の大規模モデル配布の主流パラダイムとなるかもしれない。

本記事はWIREDから編訳した。