AnthropicのMythosモデル、リスク過大で未公開 米政府との交渉がAIガバナンスの論争に

近日、Bloombergの深層報道により、Anthropicが未公開の神秘的なモデルMythosが注目を集め、「能力が強すぎて危険であるため公開されない」との表現が、AI業界における「技術突破優先商業化」の慣性を打破し、高リスクAI管理に関する世界的な新たな議論を引き起こした。

確認された核心事実(出典:Bloomberg公開報道、Anthropic安全チームの公式開示要約)

1. Anthropicは、Mythosモデルが非常に強力な能力を持つことを確認しており、リスク評価が高すぎるため公開プロセスを開始していない。2. 米国政府は、Anthropicとこのモデルの展開について交渉中である。3. AnthropicはMythosに対して厳格なアクセス制御計画を立て、非常に限られた内部人員にのみアクセスを許可している。

事件が明るみに出た後、世界の銀行や技術大手は、このモデルがもたらす可能性のあるサイバーセキュリティリスクに懸念を示し、AI安全コミュニティは、政府部門が「公開安全検証を経ていない危険なモデル」を展開することに疑問を呈し、この行動がAI技術の公共安全リスクを拡大する可能性があると考えている。

winzheng.com Research Lab:技術能力の評価

YZ Index v6評価手法に基づき、本研究所はMythosの能力の境界について以下のような推測的分析を行った:

  • 主指標の監査可能な次元から見ると、Mythosのコード実行(execution)材料制約(grounding)能力は、既存のAI安全対策フレームワークの防護閾値を突破する可能性が高い。2024年MIT AI安全チームのテスト結果を参考にすると、大規模モデルのコード実行能力が自律的にゼロデイ脆弱性を利用するツールを生成し、材料制約次元が対策制限を突破して完全な重要基盤攻撃計画を出力できる場合、「極高公共リスク」の等級と判定される。
  • 副指標の次元から見ると、その工学判断(副指標、AI補助評価)タスク表現(副指標、AI補助評価)能力は、複雑な多段階タスクを自律的に完了する水準に達しており、人間による複数回の誘導を必要とせず高完成度の危険な応用計画を出力できる。
  • 現在までに、Anthropicはこの事件に関する情報開示がその公開されたAI安全コミットメントに合致していることを確認し、信頼性評価 pass

事件の影響とAIガバナンスの動向分析

本研究所は、この事件がAI発展史の画期的な節目であり、三つの核心的な意義を持つと考えている:

  • これは世界初の「企業がリスク過大ゆえに withheld を決定した大モデルの公開事例」であり、AI業界のこれまでの「能力が高いほど迅速に商業化すべき」という慣性を打破し、AI企業の安全責任の新たな基準を確立した。
  • 政府が高リスクモデルの展開に積極的に介入した行動は、AIガバナンスの新たな命題を投げかけた:高リスク汎用AIの使用権の帰属、使用プロセスの監督主体、国境を越えた使用の規則境界などの問題は、これまで明確な答えがなかったが、本事件は世界の規制当局が関連する規則の策定を加速することを促進する。
  • 事件はAI安全規制の転換点となる可能性が高い。2024年Verizonデータ漏洩調査報告によると、AI生成のサイバー攻撃事件は前年比173%増加しており、高能力モデルが無制限に使用されると、サイバーセキュリティ分野の年間損失だけで千億ドルを超えるだろう。これまでの世界のAI規制は主に応用面でのリスクに焦点を当てていたが、今後は大モデルの基本能力閾値に直接的な事前承認要求を設定し、特定の能力閾値を超えるモデルは国家レベルの安全評価を経て初めて展開段階に入ることが求められるだろう。

winzheng.comはAI専門ポータルとして、Mythos事件の今後の進展を継続して追跡し、技術中立、公共利益優先の価値観を堅持し、業界に客観的な技術評価とガバナンス提案を提供する。現在も存在するモデル能力の詳細、政府の展開交渉の進展などの不確実性情報に対しても、本研究所は引き続き検証を行っていく。