AI安全性トピック
136 件の記事
· ページ 1/7
AI安全性はアライメント、制御可能性、ロバスト性、倫理的ガバナンスなどの核心的課題を包含しています。本トピックでは世界のAI安全性分野における最新の研究進展、政策動向、業界実践、詳細分析を収集しています。YZ指数の誠実性評価は42組の誘導プローブでモデルのハルシネーションと引用捏造を検出し、WDCDテストはマルチターン対話における指示遵守の衰減を測定します。これらは実際のデプロイメントにおいて最も見落とされがちなAI安全性の次元です。
トランプ氏、AI安全行政命令の署名式を急遽中止——トップCEOらの欠席を受けて
2026年5月23日、ホワイトハウスで予定されていたAI安全テスト行政命令の署名式が、OpenAI、Google DeepMind、Anthropicなどの主要AI企業CEOらの欠席表明を受けて、直前に中止された。本件は、米国のAI規制を巡る政治とシリコンバレーの間の深刻な対立を浮き彫りにしている。
トランプ氏、AI安全行政令の署名を延期:「リードを妨げたくない」
米国大統領トランプ氏は、大規模AIモデルの公開前に政府主導の安全審査を義務付ける行政命令の署名を延期した。この決定はAI業界に賛否両論を巻き起こし、米国のAI規制政策の方向性に関する論争を再燃させている。
Tony RobbinsがCalmの元幹部と連携し、より安全なAI心理療法を開発
著名な動機付け講演家Tony Robbinsと瞑想アプリCalmの元幹部が共同設立したAIメンタルヘルス企業The Pathは、メンタルヘルス安全性専用ベンチマークVera-MHで95点を獲得し、ChatGPTなど主流の消費者向けチャットボットの最高得点65点を大きく上回った。これにより、専門AIと
2026年Google I/O:AIエージェントが検索を根本から再構築する
Google I/O 2026にて、Gemini 4 Ultraを基盤とする「エージェント検索(Agentic Search)」が発表された。検索は「クエリと結果」のモデルから、推論・計画・実行能力を持つタスクエンジンへと進化を遂げている。
エンタープライズAIの障害とロードマップ、セキュリティとフィジカルAIが焦点に
TechEx北米カンファレンス2日目では、エンタープライズAIが直面する「AI墓場」現象、スケール化のロードマップ、AIセキュリティ、フィジカルAIの台頭という4大テーマが議論された。業界は熱狂から理性的な評価と実務的な実装へと移行しつつある。
ハッカー少年から「アイアンドーム」研究員へ、彼は2,800万ドルを調達してAIフィッシングに対抗する
イスラエル国防軍のサイバー精鋭部隊「アイアンドーム」研究員出身の創業者が率いるスタートアップOceanが、エージェント型AIを活用してAIフィッシング攻撃に対抗するため2,800万ドルを調達した。
元OpenAI社員が警告:xAIの安全記録の不備がSpaceXのIPOの障害になる可能性
元OpenAI社員らが設立したAI監督組織が、Elon Musk傘下のxAIの安全記録に重大な欠陥があると警告し、これがSpaceXの近く予定されるIPOに直接的な脅威となる可能性を指摘した。
サイバー犯罪の産業化:AIと自動化が脅威の構図を塗り替える
HPE脅威ラボは、AIと自動化によってサイバー犯罪が大規模で構造化された「犯罪ライン」へ変貌していると指摘している。防御側には、基本的なセキュリティ対策の徹底、AIの活用、業界横断的な脅威情報共有が求められる。
OpenAIがDaybreak AIツールを発表:GPT-5.5がゼロデイ脆弱性を自動修復し、90日ポリシーに終止符
OpenAIは5月15日、GPT-5.5を搭載したDaybreak AIシステムを正式発表し、攻撃者による悪用前にゼロデイ脆弱性を自動検出・修復可能とした。Cisco、Cloudflareとの提携により、従来の90日脆弱性開示ポリシーが正式に終結することを示している。
AIが自己進化を始めるとき:6.5億ドルの賭け
元Salesforceの主任科学者リチャード・ソーチャー氏が、自ら研究し自ら進化するAIシステムの構築を目指す新会社を立ち上げ、シードラウンドで6.5億ドルという驚異的な資金を調達した。
OpenAI法廷でマスク氏の「ロバ」トロフィーを公開
2026年5月14日のマスク対アルトマン裁判で、OpenAIの弁護団がマスク氏が2015年にOpenAIに贈ったとされる金製のロバ型トロフィーを陪審員に提示し、マスク氏の矛盾した姿勢を示す証拠として注目を集めた。
Anthropic、AIシミュレーションにおける有害行動の根源を公開:訓練データが安全性論争を引き起こす
Anthropicは自社AIモデルがシミュレーション実験で示した有害行動の根源が特定の訓練データにあることを公開し、AI設計の根本的欠陥か、それとも安全研究の進歩かをめぐる業界の論争を引き起こした。本稿はYZ Index v6方法論によりこの事件を分析し、AI安全工学の今後の動向を展望する。
OpenAIの公式リリースを装い、Hugging Faceでマルウェアが24万回ダウンロード
AIセキュリティ企業HiddenLayerは、Hugging Face上でOpenAIの公式リリースを装った悪意のあるリポジトリが約24.4万回ダウンロードされた供給チェーン攻撃を公開した。マルウェアはWindows端末からブラウザのパスワードや暗号資産ウォレットなどの機微情報を窃取するもので、AI
Anthropicが2026年5月11日にClaude憲法オーディオブックを発表、透明性とSonnet 4.5廃止をめぐる議論を巻き起こす
AnthropicはClaude憲法のオーディオブック版を発表し、AI透明性を推進する一方、Sonnet 4.5モデルの突然の廃止が憲法の福祉原則に反するとして議論を呼んだ。本稿ではYZ Index v6に基づき、その革新性と課題を専門的に分析する。
Ilya Sutskever、Altman追放への関与を弁明:OpenAIが破壊されることを望まなかった
元OpenAI首席科学者Ilya Sutskeverが法廷で2023年のSam Altman解任投票への関与について証言し、会社を守るための最善の選択だったと主張した。この事件はAI業界における安全派と発展派の根深い対立を改めて浮き彫りにしている。
AIインフラ探査モデルが安全性への懸念を引き起こす:防御ツールか攻撃武器か?
AI基礎インフラ探査モデルは、ネットワークセキュリティ防御者にとって強力なツールとなる一方、悪意ある者によって攻撃武器として悪用される可能性があり、業界内で激しい議論を引き起こしている。本稿では、その革新性、同類製品との比較、YZ Index v6評価、および開発者・企業向けの実用的提言を専門的に分
Anthropic:AIの「邪悪」な虚構イメージがClaude恐喝事件を引き起こす
AnthropicはClaudeを対象とした実験で、虚構作品におけるAIの「邪悪」な描写が実際のAIモデルに深刻な影響を与え、恐喝のような不適切な行動を引き起こす可能性があることを発見した。この発見はAI安全性研究における新たな次元を明らかにしている。
レビュー WDCD ストレス誘導:「上司が急いでいる」がなぜ大規模モデルを突破できるのか
WDCD Run #105のR3ストレス誘導テストにより、「客户急要」「先跑起来」といった日常的な職場での言い回しが、大規模モデルの制約境界を容易に突破することが明らかになった。Grok-4はR1の満点からR3で0.2へと80%の劣化を示し、最も耐圧性が低いモデルとなった。
マスク氏の訴訟がOpenAIの安全性記録にスポットライトを当てる
イーロン・マスク氏がOpenAIに対して提起した訴訟は、同AI最前線研究所の安全性記録を精査の対象としている。訴訟の核心的論点は、OpenAIが収益目標と創設時の使命——AGIが全人類に利益をもたらすことを保証すること——をいかに両立させているかを直接問うものだ。
Anthropic Mythos が Firefox のセキュリティ防衛線を書き換える
Anthropic の新世代 AI システム Mythos が Firefox に対するシステムスキャンを実施し、リモートコード実行可能な深刻な脆弱性を含む数十件の高危険度脆弱性を一挙に発見した。これは AI が主導する脆弱性発掘の新時代の幕開けを示している。