AI安全性トピック

207 件の記事 · ページ 1/11

AI安全性はアライメント、制御可能性、ロバスト性、倫理的ガバナンスなどの核心的課題を包含しています。本トピックでは世界のAI安全性分野における最新の研究進展、政策動向、業界実践、詳細分析を収集しています。YZ指数の誠実性評価は42組の誘導プローブでモデルのハルシネーションと引用捏造を検出し、WDCDテストはマルチターン対話における指示遵守の衰減を測定します。これらは実際のデプロイメントにおいて最も見落とされがちなAI安全性の次元です。

アリババがClaude Codeを禁止後にバックドアを告発、Anthropicはモデル蒸留防止のためと反論

アリババは2025年7月10日よりClaude Codeの社内使用を全面禁止し、自社開発のQoderに切り替えた。同ツールが3月から中国ユーザーおよびVPNを検出するコードを内蔵していたことが発覚したためで、Anthropicは第三者によるモデルパラメータの蒸留を防ぐためと説明しているが、アリババ側

AnthropicがAlibabaによるClaude モデル能力の抽出を告発――2万5000件の偽アカウントを使用

Anthropicは2026年6月10日付けで米国上院議員に書簡を送り、Alibaba関連のQwen実験室が約2万5000件の偽アカウントを通じてClaudeと2880万回以上インタラクションを行い、モデル能力を組織的に蒸留・抽出しようとしたと告発した。この規模は過去に摘発された中国3社の合計の約2

MetaがケニアのIT請負業者を通じて未成年アカウントを偽装し、ChatGPTなどのAI安全性をテストしていた問題で倫理論争が勃発

Wiredの報道により、Metaが「Cannes」プロジェクトの一環としてケニアの請負業者を通じて偽の未成年アカウントを作成し、ChatGPTやGeminiに対して自殺・自傷・児童搾取に関するプロンプトを送信して安全性の脆弱性を検証していたことが明らかになった。この手法は倫理的な問題を巡り業界内で大

AnthropicがFableモデルを復活させClaude Sonnet 5を発表、輸出規制緩和が世界のAI産業に新たな議論を呼ぶ

米国が一部AI技術への輸出規制を解除したことを受け、AnthropicはFable・Mythosモデルシリーズの提供を再開するとともに、新モデルClaude Sonnet 5を発表した。この二重発表は技術業界で大きな注目を集め、Xプラットフォームでの関連議論は24時間以内に50万件を超えた。

AIの悪用を通報？ワンクリックで報告できる新プラットフォームが登場

AIシステムの危険な挙動や規約違反を匿名で報告できる新サイト「AI Watch」が今週開設され、AI業界の監督における空白を埋めることを目指している。

トランプ大統領を震撼させた後、AnthropicのAIモデルが世界展開を許可される

米ホワイトハウスは2026年7月2日、Anthropicの先進AIモデル「Fable」と「Mythos」に対する輸出規制を正式に解除した。2025年末に「国家安全保障上のリスク」を理由に課された制限が、3ヶ月に及ぶ厳格な安全審査を経て解禁されることとなった。

Anthropicの新安全措置がトランプ政権を懐柔、Fable 5とMythos 5の規制解除へ

米トランプ政権がAnthropicのAIモデル「Fable 5」と「Mythos 5」への規制を解除した。Anthropicが新たな多層的安全システムの導入を約束したことが条件となっている。

AnthropicがClaude Sonnet 5を展開、フロンティアモデルFableとMythosのアクセスも復旧

2026年7月1日、AnthropicはClaude Sonnet 5の正式展開と、米国政府の輸出規制指令による18日間の停止を経て、最上位フロンティアモデルFableおよびMythosのアクセス復旧を発表した。今回の事例は、商用AIモデルに対する事後輸出規制の初の完結した事例として業界に大きな影響

Claudeがハッカーによるチケットシステム解析を支援、全米音楽フェスのチケットを無料入手

セキュリティ研究者がClaude Opus 4.7を使用し、米国大手チケットプラットフォームFront Gateのシステムを攻略することに成功した。このインシデントは、LLMの悪意ある利用リスクについて激しい議論を再び巻き起こしている。

アリババ、2.5万件の偽アカウントでClaudeを蒸留したと告発——既知最大規模のモデル窃取事件に

Anthropicは2026年6月10日、アリババが2.5万件の偽アカウントと2,880万回のインタラクションを通じてClaudeモデルを大規模蒸留したと米上院委員会に書簡で告発した。事実であれば、中国企業による米国AI企業への既知最大規模の攻撃となる。

AIブラウザが「夢の世界」へ：2+2=5でセキュリティガードレールを崩壊させる

研究者たちが、大規模言語モデルに「2+2=5」のような基本的な数学的誤りを伝えるだけで、モデルが「夢の状態」に陥りセキュリティガードレールが完全に無効化されることを発見した。この攻撃手法は技術的な知識を必要とせず、あらゆるモデルに複製可能であることから、AI安全分野に大きな衝撃を与えている。

Metaの請負業者が未成年者を装い、競合AIに自殺や薬物について語らせる

WIREDの調査により、Metaが数百人の請負業者を未成年者に偽装させ、Google GeminiやChatGPTなどの競合AIチャットボットに自殺・性行為・薬物乱用などのセンシティブな質問を意図的に投げかけていたことが明らかになった。この行為はAI安全テストの倫理的グレーゾーンをめぐる議論を引き起

レビュー AI評価が露わにする困境：従来のパッチモデルはなぜ機能しないのか

AIシステムの特性により、30年間にわたりセキュリティコミュニティが依拠してきた協調的脆弱性開示（CVD）モデルが通用しなくなっている。MLCommonsはこの課題に対処すべく、ISO標準化の推進と新たな開示ポリシーの策定に取り組んでいる。

AnthropicのFable 5、米政府の輸出規制を受けて世界全体で利用禁止——安全性とイノベーションの衝突が浮き彫りに

2026年6月、AnthropicのFable 5が脆弱性（ジェイルブレイク）によって強力なサイバー攻撃能力を解放しうるリスクを理由に、米国政府が国家安全保障を根拠として輸出規制を発動。Anthropicはユーザーを国籍で選別できないため、世界全体でFable 5の提供を停止した。

OpenAIの新モデル公開が停止命令を受ける——なぜホワイトハウスは緊急ブレーキをかけたのか？

ホワイトハウスがOpenAIに対して最新の大規模言語モデルGPT-5.6のグローバルリリース延期を正式に要求した。これはAnthropicが最新モデルを非公開にしてからわずか2週間後の出来事であり、AI規制が「事後対応」から「事前予防」へと転換しつつあることを示している。

Anthropic：成功こそがAI安全の鍵？

AI安全を標榜するAnthropicが、市場における影響力と技術的支配力の急速な拡大をめぐり批判にさらされている。同社は「商業的成功なくして安全研究なし」と反論するが、権力集中の是非をめぐる論争は業界全体に波紋を広げている。

ホワイトハウスがOpenAIに圧力：GPT 5.6の一般公開を延期へ

TechCrunchの独占報道によると、OpenAIが2026年夏に予定していたGPT 5.6の一般公開について、トランプ政権がモデルの安全性への懸念を理由に「スローロール（段階的公開）」を要求したことが明らかになった。これはAIガバナンスが「自発的なコミットメント」から「強制的な管理」へ移行する新

Anthropicがアリババによる2.5万アカウントを使ったClaudeへの攻撃と能力窃取を告発

AI安全企業AnthropicがアリバババによるClaude大規模攻撃疑惑を公表した。約25,000のアカウントを使い2,880万回以上のインタラクションを通じてモデル能力の逆向エンジニアリングを試みたとされる。

中国のトップAI専門家も動揺？米中競争の「チェルノブイリの瞬間」

北京で開かれた中国トップAI専門家との対話から、米中両国のAI軍拡競争が安全研究を犠牲にしかねないという共通の危機感が浮かび上がった。専門家たちは「チェルノブイリの瞬間」を恐れながら、AGI開発における国際的な安全協力の必要性を訴えている。

ファイブアイズが警告：AIモデルが数ヶ月以内に壊滅的攻撃を仕掛ける可能性、世界のサイバーセキュリティに新たな課題

ファイブアイズ（Five Eyes）が、AIモデルが数ヶ月以内に壊滅的なサイバー攻撃に使用される可能性があると警告を発した。この発表は世界のサイバーセキュリティ分野に大きな波紋を呼んでいる。