AIニュース — 業界レポートとグローバルカバレッジ

オリジナル

arXivがAI幻覚引用論文の禁止を提案、学術誠実性をめぐり議論が激化

arXivは2026年5月16日、AI生成の幻覚引用やメタコメントを含む論文の著者を1年間投稿禁止とする新方針を発表した。学術誠実性の維持と研究者への過度な処罰をめぐり議論が対立している。

arXiv政策 AI幻觉学术诚信

2026年5月18日 285

オリジナル

元Google CEOシュミット氏のAI講演がブーイングに遭遇学生の就職への警戒と支持者の反知性論が激しく衝突

2026年5月、元Google CEOのエリック・シュミット氏がアリゾナ州某大学の卒業式でAI発展に言及した際、学生から集団的なブーイングを浴びた。この出来事をめぐり、AI支持者と反対者の間で激しい議論が巻き起こっている。

AI就业冲击毕业演讲争议施密特AI观点

2026年5月18日 416

レビュー

Gemini 3.1 Pro メインボードで11.1ポイント急落、コード実行は100点から半減

本日のSmoke速測において、Gemini 3.1 Proのメインボード得点が11.1ポイント下落し、コード実行次元が満点100から75へと急落した。短期的な観察が必要だが、大規模な移行を要するレベルには至っていない。

Gemini 3.1 Pro 代码执行 Smoke评测模型退化

2026年5月18日 207

レビュー

Qwen3 Maxメインランキングが10.9点暴落、コード実行は単日で25点の半減

Qwen3 Maxが本日のSmokeクイック評価でメインランキング10.9点を失い、コード実行スコアが100点満点から75点に急落しました。誠実性評価もpassからwarnへ降格し、モデル能力の段階的退化の可能性が示唆されています。

Qwen3 Max 代码执行模型评测性能波动

2026年5月18日 163

レビュー

GPT-5.5メインランキングが23.5点暴落、DoubaoPro 97.75点でSmokeトップ獲得

本日のSmoke軽量評価でDoubaoProが97.75点で首位を獲得し、唯一97点を超えるモデルとなった。一方、GPT-5.5は実行次元の崩壊により23.5点もの大幅下落を記録した。

豆包 Pro GPT-5.5 Smoke评测主榜波动

2026年5月18日 189

オリジナル

AnthropicがGates財団から2億ドルの提携を獲得 Claude中小企業向けサービスを発表

Anthropicは2025年5月15日、Bill & Melinda Gates Foundationと2億ドルの戦略的提携を結び、同時にClaude for Small Businessサービスを発表した。中小企業向けに即時導入可能なA

AI技術 Anthropic 中小企业数字化

2026年5月17日 406

オリジナル

OpenAIがDaybreak AIツールを発表：GPT-5.5がゼロデイ脆弱性を自動修復し、90日ポリシーに終止符

OpenAIは5月15日、GPT-5.5を搭載したDaybreak AIシステムを正式発表し、攻撃者による悪用前にゼロデイ脆弱性を自動検出・修復可能とした。Cisco、Cloudflareとの提携により、従来の90日脆弱性開示ポリシーが正式

AI安全性 OpenAI 零日漏洞

2026年5月17日 378

オリジナル

Andurilが50億ドルを調達、評価額610億ドルに国防AI資本加速の背後にある技術リスク

軍事AIスタートアップAndurilが新たに50億ドルの資金調達を完了し、評価額610億ドルに達した。無人機自律システムや戦場意思決定AIへの投資が加速する一方、技術的制約とリスクが存在する。

Anduril 国防AI 融资分析

2026年5月17日 330

オリジナル

WDCD Run #120：11モデルの平均指示減衰率は35.2%、GPT-5.5が-13%でトップに

Winzheng動的コンテキスト減衰（WDCD）ベンチマーク Run #120では、11モデルの平均コミットメント減衰率が35.2%に達し、GPT-5.5が-13%の減衰率でトップを獲得しました。指示減衰が現在のフロンティアシステムにおける

WDCD AI benchmark instruction decay multi-turn

2026年5月17日 285

レビュー

WDCD週期に劇的変化：GPT-5.5が71.67点で首位、Gemini急騰14.2点、文心は崩落

今期WDCD守約能力ランキングでGPT-5.5が71.67点で首位を再確立し、Gemini 2.5 Proは14.2点の大幅上昇を記録した一方、ERNIE Bot 4.5は7.5点下落と明暗が分かれた。

WDCD 守约测试模型更新上下文衰减

2026年5月17日 300

レビュー

リソース制限がWDCDで最難関シーンに、Doubao3.5点で業務ルール部門にてGPTを逆転

WDCD五大シーン横断評価において、リソース制限シーンは全モデルが最低スコアとなり、首位のClaude Opus 4.7でさえ2.67点にとどまった。一方、業務ルールシーンではDoubaoProが3.5点でトップに立ち、GPT-5.5を上回

WDCD 守约测试模型横评资源限制

2026年5月17日 280

レビュー

R3崩壊率93.3％！Grok4 WDCD三段階テスト初回完全防御も最終段階で総崩れ

WDCDの三段階テストで、モデルはR1でほぼ100％の制約確認、R2で91％の抵抗率を維持できるが、R3で直接的な圧力を受けると平均誠実度は30.6％まで急落し、Grok4は93.3％という衝撃的な崩壊率を記録した。

WDCD 守约测试模型衰减 R3压力测试

2026年5月17日 273

レビュー

WDCDコンプライアンスランキング：GPT-5.5が71.67点で首位、Grok 4は52.5点で最下位

WDCDコンプライアンステストで11モデルを3ラウンドの対話で評価した結果、GPT-5.5が71.67点で首位を獲得し、Grok 4は52.5点で最下位となり、上位と下位で19.17点の差が生まれた。

WDCD 守约测试 AI模型排行 GPT-5.5

2026年5月17日 214

レビュー

Claude Sonnet 4.6 メインランキングが12.3点急落、素材制約は単日で27.3点の大幅下落

Claude Sonnet 4.6が本日のSmoke簡易テストで顕著な異常を示し、メインランキング全体で12.3点下落した。中でも素材制約次元が27.3点という大幅な下落を記録し、Anthropicによる最近のアラインメント微調整との関連が

Claude Sonnet 4.6 材料约束 Smoke评测模型性能波动

2026年5月17日 298

レビュー

Claude Opus 4.7 Smoke評価のメインランキングが9点急落、材料制約が1日で20点半減

Claude Opus 4.7が本日のSmoke評価でメインランキング97.75点から88.75点へ9点下落し、材料制約次元が95点から75点へ急落しました。単日のサンプル偏差の可能性が高いものの、Anthropicの最近のコンテキスト最適

Claude Opus 4.7 材料约束 Smoke快测性能波动

2026年5月17日 294

レビュー

7日間Smoke簡易テスト：ERNIE Botが53点急騰、GPT-o3は-7.8で下落首位

今週7日連続のSmoke簡易テストで、ERNIE Bot 4.5が+53.4のトレンドで急騰し最大のダークホースとなった一方、GPT-o3は-7.8で主要モデル中最大の下落を記録した。

文心一言 GPT-o3 Smoke评测模型波动

2026年5月17日 288

レビュー

3モデルが88.75点で同率1位、Claude双璧が12点暴落、Smokeランキング激震

本日のSmoke軽量評価で、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Maxの3モデルが88.75点で同率首位となった一方、Claudeシリーズは大幅下落し、DeepSeekとGrokが急上昇するなど、ラン

Claude Opus 4.7 材料约束 Smoke轻量评测模型迭代

2026年5月17日 268

オリジナル

NTEゲーム開発会社、AIによるコアアセットの不使用を確認コミュニティで品質と効率を巡る対立

NTEゲーム開発チームは5月15日、将来的にコアアセットとキャラクター描画にAI技術を採用しないことを明言し、品質と評判を優先する方針を示した。X(旧Twitter)プラットフォーム上では支持と反対の意見が対立している。

AI游戏开发资产争议质量优先

2026年5月16日 207

オリジナル

NVIDIA、2.6Bオープンソース世界モデルを発表革新的ブレークスルーが安全性論争を引き起こす

NVIDIAが5月15日に発表した2.6Bパラメータのオープンソース世界モデルは、単一GPUで動作し、軌跡制御により単一画像から動的世界を生成可能。AI研究の民主化を加速する一方、虚偽コンテンツ生成への悪用懸念も浮上している。

英伟达世界模型 AI开源安全争议

2026年5月16日 341

オリジナル

Anthropic、米国に対中AI政策の強硬化を要請安全ラボとしての位置付けを巡り激しい議論

Anthropicが5月14日に発表した新論文で米国政府に対中AI政策の強硬化を促し、かつての「安全ラボ」としての立場から大きく転換した。execution（コード実行）とgrounding（材料制約）の観点から、この戦略変更の深層的な技術

Anthropic AI政策中美科技安全实验室

2026年5月16日 207

オリジナル

arXivがAI幻覚引用論文の禁止を提案、学術誠実性をめぐり議論が激化

元Google CEOシュミット氏のAI講演がブーイングに遭遇 学生の就職への警戒と支持者の反知性論が激しく衝突

Gemini 3.1 Pro メインボードで11.1ポイント急落、コード実行は100点から半減

Qwen3 Maxメインランキングが10.9点暴落、コード実行は単日で25点の半減

GPT-5.5メインランキングが23.5点暴落、DoubaoPro 97.75点でSmokeトップ獲得

AnthropicがGates財団から2億ドルの提携を獲得 Claude中小企業向けサービスを発表

OpenAIがDaybreak AIツールを発表：GPT-5.5がゼロデイ脆弱性を自動修復し、90日ポリシーに終止符

Andurilが50億ドルを調達、評価額610億ドルに 国防AI資本加速の背後にある技術リスク

WDCD Run #120：11モデルの平均指示減衰率は35.2%、GPT-5.5が-13%でトップに

WDCD週期に劇的変化：GPT-5.5が71.67点で首位、Gemini急騰14.2点、文心は崩落

リソース制限がWDCDで最難関シーンに、Doubao3.5点で業務ルール部門にてGPTを逆転

R3崩壊率93.3％！Grok4 WDCD三段階テスト初回完全防御も最終段階で総崩れ

WDCDコンプライアンスランキング：GPT-5.5が71.67点で首位、Grok 4は52.5点で最下位

Claude Sonnet 4.6 メインランキングが12.3点急落、素材制約は単日で27.3点の大幅下落

Claude Opus 4.7 Smoke評価のメインランキングが9点急落、材料制約が1日で20点半減

7日間Smoke簡易テスト：ERNIE Botが53点急騰、GPT-o3は-7.8で下落首位

3モデルが88.75点で同率1位、Claude双璧が12点暴落、Smokeランキング激震

NTEゲーム開発会社、AIによるコアアセットの不使用を確認 コミュニティで品質と効率を巡る対立

NVIDIA、2.6Bオープンソース世界モデルを発表 革新的ブレークスルーが安全性論争を引き起こす

Anthropic、米国に対中AI政策の強硬化を要請 安全ラボとしての位置付けを巡り激しい議論

元Google CEOシュミット氏のAI講演がブーイングに遭遇学生の就職への警戒と支持者の反知性論が激しく衝突

Andurilが50億ドルを調達、評価額610億ドルに国防AI資本加速の背後にある技術リスク

NTEゲーム開発会社、AIによるコアアセットの不使用を確認コミュニティで品質と効率を巡る対立

NVIDIA、2.6Bオープンソース世界モデルを発表革新的ブレークスルーが安全性論争を引き起こす

Anthropic、米国に対中AI政策の強硬化を要請安全ラボとしての位置付けを巡り激しい議論