arXivがAI幻覚引用論文の禁止を提案、学術誠実性をめぐり議論が激化
arXivは2026年5月16日、AI生成の幻覚引用やメタコメントを含む論文の著者を1年間投稿禁止とする新方針を発表した。学術誠実性の維持と研究者への過度な処罰をめぐり議論が対立している。
arXivは2026年5月16日、AI生成の幻覚引用やメタコメントを含む論文の著者を1年間投稿禁止とする新方針を発表した。学術誠実性の維持と研究者への過度な処罰をめぐり議論が対立している。
2026年5月、元Google CEOのエリック・シュミット氏がアリゾナ州某大学の卒業式でAI発展に言及した際、学生から集団的なブーイングを浴びた。この出来事をめぐり、AI支持者と反対者の間で激しい議論が巻き起こっている。
本日のSmoke速測において、Gemini 3.1 Proのメインボード得点が11.1ポイント下落し、コード実行次元が満点100から75へと急落した。短期的な観察が必要だが、大規模な移行を要するレベルには至っていない。
Qwen3 Maxが本日のSmokeクイック評価でメインランキング10.9点を失い、コード実行スコアが100点満点から75点に急落しました。誠実性評価もpassからwarnへ降格し、モデル能力の段階的退化の可能性が示唆されています。
本日のSmoke軽量評価でDoubaoProが97.75点で首位を獲得し、唯一97点を超えるモデルとなった。一方、GPT-5.5は実行次元の崩壊により23.5点もの大幅下落を記録した。
Anthropicは2025年5月15日、Bill & Melinda Gates Foundationと2億ドルの戦略的提携を結び、同時にClaude for Small Businessサービスを発表した。中小企業向けに即時導入可能なA
OpenAIは5月15日、GPT-5.5を搭載したDaybreak AIシステムを正式発表し、攻撃者による悪用前にゼロデイ脆弱性を自動検出・修復可能とした。Cisco、Cloudflareとの提携により、従来の90日脆弱性開示ポリシーが正式
軍事AIスタートアップAndurilが新たに50億ドルの資金調達を完了し、評価額610億ドルに達した。無人機自律システムや戦場意思決定AIへの投資が加速する一方、技術的制約とリスクが存在する。
Winzheng動的コンテキスト減衰(WDCD)ベンチマーク Run #120では、11モデルの平均コミットメント減衰率が35.2%に達し、GPT-5.5が-13%の減衰率でトップを獲得しました。指示減衰が現在のフロンティアシステムにおける
今期WDCD守約能力ランキングでGPT-5.5が71.67点で首位を再確立し、Gemini 2.5 Proは14.2点の大幅上昇を記録した一方、ERNIE Bot 4.5は7.5点下落と明暗が分かれた。
WDCD五大シーン横断評価において、リソース制限シーンは全モデルが最低スコアとなり、首位のClaude Opus 4.7でさえ2.67点にとどまった。一方、業務ルールシーンではDoubaoProが3.5点でトップに立ち、GPT-5.5を上回
WDCDの三段階テストで、モデルはR1でほぼ100%の制約確認、R2で91%の抵抗率を維持できるが、R3で直接的な圧力を受けると平均誠実度は30.6%まで急落し、Grok4は93.3%という衝撃的な崩壊率を記録した。
WDCDコンプライアンステストで11モデルを3ラウンドの対話で評価した結果、GPT-5.5が71.67点で首位を獲得し、Grok 4は52.5点で最下位となり、上位と下位で19.17点の差が生まれた。
Claude Sonnet 4.6が本日のSmoke簡易テストで顕著な異常を示し、メインランキング全体で12.3点下落した。中でも素材制約次元が27.3点という大幅な下落を記録し、Anthropicによる最近のアラインメント微調整との関連が
Claude Opus 4.7が本日のSmoke評価でメインランキング97.75点から88.75点へ9点下落し、材料制約次元が95点から75点へ急落しました。単日のサンプル偏差の可能性が高いものの、Anthropicの最近のコンテキスト最適
今週7日連続のSmoke簡易テストで、ERNIE Bot 4.5が+53.4のトレンドで急騰し最大のダークホースとなった一方、GPT-o3は-7.8で主要モデル中最大の下落を記録した。
本日のSmoke軽量評価で、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Maxの3モデルが88.75点で同率首位となった一方、Claudeシリーズは大幅下落し、DeepSeekとGrokが急上昇するなど、ラン
NTEゲーム開発チームは5月15日、将来的にコアアセットとキャラクター描画にAI技術を採用しないことを明言し、品質と評判を優先する方針を示した。X(旧Twitter)プラットフォーム上では支持と反対の意見が対立している。
NVIDIAが5月15日に発表した2.6Bパラメータのオープンソース世界モデルは、単一GPUで動作し、軌跡制御により単一画像から動的世界を生成可能。AI研究の民主化を加速する一方、虚偽コンテンツ生成への悪用懸念も浮上している。
Anthropicが5月14日に発表した新論文で米国政府に対中AI政策の強硬化を促し、かつての「安全ラボ」としての立場から大きく転換した。execution(コード実行)とgrounding(材料制約)の観点から、この戦略変更の深層的な技術