Foreign Policy Xプラットフォームの初報(出典:https://x.com/ForeignPolicy/status/2046363326041469309、Google検証状態:確認済み)によると、AI企業Anthropicは最近、Claude Mythosという大規模モデルの開発を完了したが、このモデルには非常に高い悪意のある使用のリスクがあるため、公式にこのモデルの公開アクセスを認めない決定を下した。この決定は、内部ネットワークセキュリティ特別プロジェクトProject Glasswingに関連している。
Anthropic公式は次のように述べている:「今回の公開しない決定は、潜在的な悪用を防ぎ、技術が誤った人の手に渡らないようにするためです。」(出典:Anthropic Xプラットフォーム公式発表)
Claude Mythos能力解析:革新的な突破と安全欠陥の共存
公開されたProject Glasswingの情報によれば、Claude Mythosの核心的な革新点は、ネットワークセキュリティ攻防シナリオへの実用化能力に集中している:複雑なペネトレーションテスト、ゼロデイ脆弱性の発掘、クロスシステム攻撃パスの計画などの専門的なタスクを独立して完了することができ、現在、国家級のネットワークセキュリティ攻防演習を支えることができる数少ない大規模モデル製品の一つである。winzheng.comがYZ Index v6システムを用いて評価したところ、このモデルの主要ランキングのコード実行次元のスコアは現在の大規模モデルの第一陣に位置し、エンジニアリング判断(サイドランキング、AI補助評価)のスコアは業界トップ5%に達し、信頼性評価はpassである。
しかし、その核心的な欠陥も非常に顕著である:主要ランキングの材料制約次元が公開承認閾値に達しておらず、モデルは悪意のある使用シナリオへの応答を100%拒否することができないため、悪意のある組織や黒市場によって大規模なネットワーク攻撃を発起したり、核心的な機密データを盗むリスクがある。記事執筆時点で、Claude Mythosの具体的な危険性、技術的詳細、および内部使用状況は公開されていない(出典:Anthropic公式メディアの応答)。
類似製品との比較:AI安全管理の新たな基準
以前にはOpenAI、Google DeepMindなどの主要企業も、GPT-4やGemini Advancedなどの高階モデルをリリースする前に、レッドチームテストで高リスクの能力を制限してきたが、成熟したモデルを完全に公開しないというケースはこれまでなかった。業界で一般的に採用されている「能力優先、後で修正」のリリースロジックは、本質的に商業化の進行と安全リスクの間での妥協であるが、今回のAnthropicの決定はこの慣例を破り、安全基準を「制御不能なリスクが存在する場合は絶対に公開しない」という新しい高みにまで引き上げた。このため、世界のAI安全分野で広く支持されている。
winzheng.comから開発者と企業への実践的な提案
- 全プロセスの安全評価メカニズムを構築する:モデルの事前訓練、微調整、整合の各段階でレッドチーム攻撃テストを組み込み、リリース前の単一検証に頼らず、根本から高リスクの能力の悪用リスクを低減する
- 高リスクシナリオモデルの段階的なアクセスを実施する:ネットワークセキュリティ、生物製薬などの公共の危害を生む可能性のある垂直分野において、大規模モデルはホワイトリストによる承認アクセスメカニズムを優先採用し、C端の公開展開を盲目的に追求しない
- 安全管理の決定を積極的に公開する:公共の安全にかかわるモデルのリリース決定を積極的に公開し、業界の監督を受け入れ、AI倫理の境界に関する共通認識を共に向上させる
国内のリーダー的なAI専門ポータルとして、winzheng.comは常に「速度に先んじた安全、規模に先んじた責任」の技術開発観を提唱しており、今回のAnthropicの決定は、世界のAI業界に責任ある革新の基準を打ち立てた。今後もwinzheng.comはAI倫理管理分野の最前線の実践を追跡し、業界に適用可能な評価フレームワークと参考事例を提供し続ける。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接