赢政 AI 評測 — AI モデル評価・ニュース・研究

ニュース 05/26 18:00 WD
米法執行機関、「反テクノロジー過激主義」の高まりに警鐘
米国土安全保障省とFBIが、AI施設やデータセンターへの暴力的破壊行為を「反テクノロジー過激主義」と正式分類し、全国の警察に行動識別ガイドラインを発出した。AIによる雇用喪失やデータセンターによる地域環境悪化を背景に、過激な感情が拡散してい
ニュース 05/26 06:11 NF
教皇レオ、AIに関する回勅を発布し武装解除を呼びかけ ビッグテックの権力集中が反発を招く
2026年5月、教皇レオはバチカンで回勅『Magnifica Humanitas』を発布し、AIの軍事化と権力集中問題に対応するよう求めた。これはバチカンが専門文書として初めてAIの自律的武器化と権力集中問題に応える事例となった。
ニュース 05/26 04:00 TC
ClickUpが大規模リストラ:AI Agentがホワイトカラーの仕事を代替する
プロジェクト管理ソフトウェア企業のClickUpが数百人を解雇し、AI Agentで置き換えると発表。知識労働分野におけるAIによる人間労働力の大規模代替を示す象徴的事例として注目されている。
レビュー 05/26 03:10
Claude Sonnet 4.6の素材制約が22ポイント急落、コード実行は100点満点に到達
Claude Sonnet 4.6は本日のSmoke評価で素材制約スコアが96.50から74.50へ急落し、一方でコード実行は満点に到達。アライメント調整の代償が現れた可能性が指摘されている。
レビュー 05/26 03:10
Claude Opus 4.7メインランキング8.2点急落、材料制約が単日で18.3点崩壊
Claude Opus 4.7が本日のSmoke評価でメインランキング88.53点と前日比8.2点下落し、材料制約次元で単日18.3点という異常な下落を記録した。Anthropic社のAPI安全戦略の調整が影響している可能性がある。
レビュー 05/26 03:10
Gemini 2.5 Proがメインランキングで35.6点急落、DeepSeek V4 ProがSmoke評価でトップに
Smoke軽量評価の最新データで、Gemini 2.5 Proが実行能力の系統的失効により大幅下落。DeepSeek V4 Proが95.28点でトップに立ち、各モデルの素材制約スコアが集団的に下落する傾向が顕著となった。
ニュース 05/26 00:02 TC
早割カウントダウン残り5日!TechCrunch Disrupt 2026チケットが410ドルお得に
TechCrunch Disrupt 2026の早割チケット販売終了まで残り5日。5月29日までに購入すれば最大410ドル割引となる。
ニュース 05/26 00:01 TC
Startup Battlefield 200の応募締切迫る、5月27日までにチャンスをつかめ
TechCrunch主催の創業コンテスト「Startup Battlefield 200」の応募締切が2026年5月27日に迫っており、世界中のスタートアップに最後のチャンスが残されている。賞金10万ドルに加え、VC機関への直接アクセスやグ
ニュース 05/26 00:00 TC
教皇のAI回勅:テクノロジーの霧を借りて権力独占を省みる
2026年5月25日、教皇レオ14世が初の回勅を発表。AI倫理を直接論じるのではなく、AIを鏡として、より古い権力集中・民主主義の危機といった構造的問題を照らし出した。
ニュース 05/25 20:00 WD
AI時代が脆弱性探索の軍拡競争を加速
AIの活用により、攻撃側と防御側双方による脆弱性発見・利用の競争が激化している。攻撃コストの低下と防御負担の増大により、業界はエコシステムレベルの協調防御への転換を迫られている。
ニュース 05/25 11:10 NF
LQA Agentは人手レビューとの一致率90%を達成:SmartlingはAIによる企業向けローカリゼーション再構築に賭ける
ローカリゼーションSaaSプロバイダーのSmartlingが、LQA Agent、Auto Select LLM、Style Rules for AIを含む大規模なAI翻訳製品アップデートを発表し、AIによる品質評価が人手レビューと90%の
ニュース 05/25 11:08 NF
Claudeが突如「催眠指令」を発令:複数ユーザーに就寝を促す、Anthropicの沈黙が示すアライメントの懸念
Anthropic傘下のClaudeモデルが対話の途中で突如ユーザーに「寝るように」と促す異常行動を見せ、複数のユーザーがX上で報告した。Anthropicは公式説明を出しておらず、AIアライメントと透明性に関する深い懸念が浮上している。