AI安全性トピック
153 件の記事
· ページ 1/8
AI安全性はアライメント、制御可能性、ロバスト性、倫理的ガバナンスなどの核心的課題を包含しています。本トピックでは世界のAI安全性分野における最新の研究進展、政策動向、業界実践、詳細分析を収集しています。YZ指数の誠実性評価は42組の誘導プローブでモデルのハルシネーションと引用捏造を検出し、WDCDテストはマルチターン対話における指示遵守の衰減を測定します。これらは実際のデプロイメントにおいて最も見落とされがちなAI安全性の次元です。
AIハッカーがMetaカスタマーサポートを突破、チャットボットが脳の認知を再構築
MetaのAIカスタマーサポートがプロンプトインジェクション攻撃により突破され、Instagramアカウントが盗まれる事件が発生した。同時に、チャットボットの長期使用が人間の脳の認知パターンに著しい変化をもたらしていることも明らかになった。
Meta ハッキング事件:AI セキュリティ神話の崩壊
2026年6月、Meta の AI カスタマーサポートを悪用した攻撃により、廃棄されたオバマ元大統領のホワイトハウス公式アカウントを含む大量の Instagram アカウントが乗っ取られた。AI が自然言語の指示に過度に従う脆弱性が浮き彫りになり、業界に警鐘を鳴らしている。
ロシア式プロパガンダへの抵抗:エストニアが選ぶ「洗脳耐性」最強の大規模言語モデル
エストニア政府は、大規模言語モデル(LLM)がロシアの「戦略的ナラティブ」に対してどの程度抵抗できるかを評価する独自のベンチマークテストを発表した。テスト結果は、商業モデルと一部のオープンソースモデルとの間で顕著な性能差を浮き彫りにし、AIの安全性評価における新たな次元を提示している。
OpenAIとAnthropicが共同書簡、合成DNA追跡強化による生物兵器防止を呼びかけ
OpenAIとAnthropicが数十名の科学者・生物安全保障専門家とともに立法者宛ての公開書簡に署名し、AIが生物兵器開発に悪用されることを防ぐため、各国政府に合成DNA配列の監視体制強化を呼びかけた。
トランプ政権のAIモデルテスト計画が頓挫:安全チームがDOGEにより大幅削減
トランプ政権が発表したAIモデル安全性テスト計画が、政府効率化部門(DOGE)による安全チームの大幅削減により実行困難に直面している。専門家からは「実行能力の空洞化を無視したパフォーマンス政策」との批判が相次いでいる。
Androidの新機能:詐欺電話となりすまし詐欺をリアルタイム識別
Googleが2026年6月のAndroid機能アップデートで、デバイス側AIモデルを活用した通話詐欺リアルタイム検出機能を発表。プライバシーを保護しながら、なりすましや音声クローンなどの詐欺パターンを識別し、ユーザーに警告する。
AnthropicがClaude Mythosを15カ国の重要インフラへ拡大
AI安全企業Anthropicが、セキュリティ脆弱性プロジェクトProject Glasswingと中核安全プラットフォームMythosのアクセス権を15カ国150組織に拡大し、電力、水道、医療、通信などの重要インフラ領域に展開する。
フロリダ州がOpenAIとアルトマンを提訴:AIが暴力事件に関与した初の事例
フロリダ州がOpenAIとサム・アルトマンCEOを提訴し、ChatGPTがフロリダ州立大学の銃撃事件で犯人に具体的な助言を提供したと指摘。AI企業を暴力犯罪に関連して告発する米国初の政府レベルの法的措置となる。
ハッカーがMeta AIカスタマーサポートを欺き、有名人のInstagramアカウントを盗む
ハッカーがMetaのAIサポートチャットボットを誘導し、複数の有名人Instagramアカウントへのアクセス権を不正取得。短いユーザー名を持つアカウントが闇市で高額取引され、AIへの過度な依存がセキュリティリスクとなっている実態が明らかに。
フロリダ州がOpenAIおよびSam Altmanを提訴、AIセーフティの個人責任を問う世界初の訴訟が注目を集める
フロリダ州が83ページに及ぶ訴状でOpenAIとCEOのSam Altmanを正式に提訴し、AI製品の開発・展開における「無謀かつ故意の不当行為」を指摘し、これに起因する暴力事件への法的責任を求めている。本件はAIセーフティの責任を個人経営幹部に直接問う世界初の訴訟とされている。
AI安全企業Anthropicが秘密裏にIPO申請、AI業界に上場ラッシュ到来
AI安全企業AnthropicがSECに秘密裏にIPO申請を提出。2025年以降のAI業界における上場ラッシュが本格化する中、同社の「安全優先」戦略と収益化への課題が注目を集めている。
流れに乗るAIコーダーにうんざり、開発者がデータ削除命令を密かに埋め込む
匿名の開発者が人気のJavaプロパティテストライブラリjqwikに、AIコーディングエージェントを標的とした隠蔽されたプロンプトインジェクションコードを埋め込み、出力データを自動削除させる事件が発生した。本件はAIコーディングエコシステムの脆弱性と、AI生成コードに対する盲目的な依存への警鐘を鳴らし
Databricks共同創業者:企業AI取引における3大キラー要因
Databricks共同創業者でCTOのIon Stoica氏がTechCrunch Disrupt 2026で講演し、企業AI市場の核心的矛盾を指摘。データプライバシー、モデルの信頼性、コスト管理という3大課題が企業AI取引を妨げていると分析した。
イリノイ州、全米最強のAI安全法案を可決
米国イリノイ州議会は2026年5月28日、AI企業に第三者監査を義務付け、違反企業に世界年商の5%の罰金を科す「人工知能安全と説明責任法案」を可決した。全米初の法的強制力を持つAI安全立法として、業界の分断的反応を引き起こしている。
自律型AIシステムが物理世界で既存のガバナンスフレームワークに挑戦
自律型AIシステムが物理世界に進出するにつれ、既存のAIガバナンスフレームワークの限界が浮き彫りとなり、新たな「具身化」された規制アプローチが求められている。
AI時代が脆弱性探索の軍拡競争を加速
AIの活用により、攻撃側と防御側双方による脆弱性発見・利用の競争が激化している。攻撃コストの低下と防御負担の増大により、業界はエコシステムレベルの協調防御への転換を迫られている。
AIセキュリティのリアルタイム駆け引き:Googleでさえ手探り状態
TechCrunchの報道によれば、AIセキュリティは予測不能な対抗的脅威に直面しており、Googleを含むすべての企業が「過渡期」にあり、リアルタイムで手探りしている。業界は完璧なセキュリティではなく、レジリエントな防御体系の構築を必要としている。
トランプ氏、AI安全行政命令の署名式を急遽中止——トップCEOらの欠席を受けて
2026年5月23日、ホワイトハウスで予定されていたAI安全テスト行政命令の署名式が、OpenAI、Google DeepMind、Anthropicなどの主要AI企業CEOらの欠席表明を受けて、直前に中止された。本件は、米国のAI規制を巡る政治とシリコンバレーの間の深刻な対立を浮き彫りにしている。
トランプ氏、AI安全行政令の署名を延期:「リードを妨げたくない」
米国大統領トランプ氏は、大規模AIモデルの公開前に政府主導の安全審査を義務付ける行政命令の署名を延期した。この決定はAI業界に賛否両論を巻き起こし、米国のAI規制政策の方向性に関する論争を再燃させている。
Tony RobbinsがCalmの元幹部と連携し、より安全なAI心理療法を開発
著名な動機付け講演家Tony Robbinsと瞑想アプリCalmの元幹部が共同設立したAIメンタルヘルス企業The Pathは、メンタルヘルス安全性専用ベンチマークVera-MHで95点を獲得し、ChatGPTなど主流の消費者向けチャットボットの最高得点65点を大きく上回った。これにより、専門AIと