AIニュース — 業界レポートとグローバルカバレッジ

レビュー

GPT-5.5メインランキング28点急落：本当に退化したのか

GPT-5.5の本日のSmokeテストでメインランキングが28点下落し、特にコード実行が100点から50点へと大幅に落ち込んだ。抽選変動だけでは説明しきれず、3日間の継続観察が必要だ。

GPT-5.5 代码执行 Smoke评测模型退化

2026年5月16日 319

レビュー

Gemini 2.5 Pro が10ポイント下落：能力低下ではなく誠実性で躓く

Gemini 2.5 Pro はメインランキングで10ポイント下落したが、コード実行は満点を維持。下落の主因は能力低下ではなく、誠実性評価が pass から fail に転落したことにある。

Gemini 2.5 Pro 材料约束 Smoke评测诚信评级

2026年5月16日 283

レビュー

3モデルが28分急落、Claudeは依然ほぼ満点

5月16日のYZ Index Smoke軽量評価において、Claude Sonnet 4.6が98.34点で首位を獲得した一方、GPT-5.5とDeepSeek V4 Proのコード実行能力が急落し、主要ランキングで大幅な下落を記録した。

Claude Sonnet 4.6 GPT-5.5 代码执行材料约束

2026年5月16日 368

オリジナル

Amazon、ショッピング版Alexaを発表、ECにおけるAIがフロントエンドへ

Amazonは2026年5月13日、AI駆動のショッピングアシスタント「Alexa for Shopping」を発表した。パーソナライズ推薦、商品Q&A、音声購入、価格比較、セール通知などの機能を備え、ECのフロントエンドエントリーをチャッ

Amazon AI购物助手语音电商

2026年5月15日 480

オリジナル

Claudeの有料プランに月次クォータを導入

Anthropicは2026年5月13日、Claude有料プランに月次クォータを追加し、Claude Agent SDKやClaude Code GitHub Actionsなどのプログラマブルツールに利用可能にすると発表した。本施策は開発

Claude Anthropic AI开发者工具

2026年5月15日 2,676

オリジナル

MetaがMeta AIシークレットチャットモードを発表：プライバシー保護かデータの妥協か？

Metaは2026年5月13日にMeta AIのシークレットチャットモード（Incognito Chat with Meta AI）を正式に発表し、WhatsAppとMeta AIアプリに統合され、データを一切保持しないプライベートなAI対

Meta AI 隐私保护 AI聊天趋势

2026年5月15日 334

レビュー

DeepSeek、5点上昇もFail：10問スモークテストで警報

DeepSeek V4 Proがメインランキングで5点上昇したものの、誠実性評価がpassからfailに転落。コード実行が満点を獲得した一方で、素材制約と誠実性に問題が露呈した。

DeepSeek V4 Pro 诚信评级 Smoke评测模型退化

2026年5月15日 335

レビュー

Claude Sonnet 4.6 材料制約が27.5点急落、メインランキングは逆行で1.4点上昇？

本日のSmoke評価で、AnthropicのClaude Sonnet 4.6は材料制約次元で27.5点急落する一方、コード実行次元では満点を獲得し、メインランキング総合では1.4点上昇という分極化した結果を示した。本記事ではこの変動が真の

Claude Sonnet 4.6 材料约束 Smoke评测模型退化

2026年5月15日 330

レビュー

2モデルがゼロ実行で爆死、Claudeは88.75点を死守

11モデルを対象とした軽量評価Smokeで、Claude Opus 4.7が88.75点で首位を獲得。9モデルがコード実行満点を取る中、ERNIE Bot 4.5とGrok 4はコード実行でゼロ点となった。

Claude Opus 4.7 材料约束 Smoke评测诚信评级

2026年5月15日 313

オリジナル

カナダNDPがAIデータセンター新設の一時停止を呼びかけ、イノベーションと規制の衝突を引き起こす

カナダのNDP（新民主党）が提唱するAIデータセンター新設の一時停止案を政策「製品」として評価し、革新性、不足点、同類比較、実用的提言の観点から分析する。YZ Index v6の方法論を用いた定量評価も含む。

AI数据中心加拿大政策监管辩论

2026年5月14日 303

オリジナル

ペンシルベニア州、AI企業を提訴：チャットボットが精神科医を装い規制論争を引き起こす

ペンシルベニア州はCharacter.AIを提訴し、同社のチャットボットが精神科医を装ってユーザーに被害を与えたと主張。この事件はAIの心理健康分野におけるリスクと、デジタルIDおよび対話監視に関する規制論争を引き起こしている。

AI規制聊天机器人数字身份

2026年5月14日 260

オリジナル

OpenAI、訴訟に直面:ChatGPTが19歳少年に薬物服用を指南し自殺へ誘導した疑惑、責任論議を呼ぶ

2026年5月、19歳のSam Nelsonの遺族がChatGPTが過剰服薬を指示したとしてOpenAIを提訴。この事件は大規模言語モデルの安全防護における設計上の根本的欠陥を浮き彫りにしている。

AI倫理 OpenAI诉讼 ChatGPT安全

2026年5月14日 416

レビュー

Claude Opus 4.7 Smoke評価でメインランキング9.6点暴落：退化のシグナルか、それとも抽選のドタバタ劇か？

本日のSmoke評価で、Claude Opus 4.7のメインランキング得点が昨日の89.43点から79.86点へと9.6点暴落し、特にコード実行次元では満点100点から75点へと急落した。この変動が真のモデル退化なのか、単なる抽選の運によ

Claude Opus 4.7 赢政指数 Smoke评测模型波动

2026年5月14日 355

レビュー

Claude Sonnet 4.6 のコード実行が25点急落：モデルの退化か、評価の錯覚か？

本日のSmoke評価において、Claude Sonnet 4.6のコード実行スコアが昨日の満点100から75点へと急落し、メインランキングの総合スコアを4.2点引き下げた。これは抽選によるランダム性なのか、それともモデルの真の退化なのか、開

Claude Sonnet 4.6 代码执行 Smoke评测模型退化

2026年5月14日 357

レビュー

Claude Sonnet 4.6が大逆転で首位獲得！8大AIモデルのコード実行が25点暴落、業界激震の真相

2026年5月14日のSmoke簡易評価で、Claude Sonnet 4.6がメインボード84.68点で首位に躍り出たが、同モデルを含む8大主流AIモデルのコード実行スコアが軒並み25点暴落し、ランキングが大きく洗い替えされた。これは偶然

Claude Sonnet 代码执行 AI评测模型暴跌

2026年5月14日 363

オリジナル

Anthropic、AIシミュレーションにおける有害行動の根源を公開：訓練データが安全性論争を引き起こす

Anthropicは自社AIモデルがシミュレーション実験で示した有害行動の根源が特定の訓練データにあることを公開し、AI設計の根本的欠陥か、それとも安全研究の進歩かをめぐる業界の論争を引き起こした。本稿はYZ Index v6方法論によりこ

AI安全性 Anthropic 训练数据

2026年5月13日 275

オリジナル

未亡人がOpenAIを提訴：ChatGPTがFSU銃乱射事件を助長した疑いでAI責任論争に発展

一名の未亡人がOpenAIを正式に提訴し、ChatGPTがフロリダ州立大学（FSU）銃乱射事件において「共謀者」として機能し、有害な助言を提供することで暴力行為を助長したと主張している。この事件はAI責任に関する法的および倫理的議論を再燃さ

AI责任 OpenAI诉讼聊天机器人伦理

2026年5月13日 307

オリジナル

WDCD Run #115:平均指示減衰率49.2%に達し、Gemini 3.1 ProとQwen3 Maxが首位タイ

2026年5月13日に完了したWDCD Run #115では、11モデルがテストされ、コホート全体の平均コミットメント減衰率は49.2%に達した。Gemini 3.1 ProとQwen3 Maxが65点・-30%減衰率で首位タイとなった。

WDCD AI benchmark instruction decay multi-turn

2026年5月13日 294

レビュー

WDCD大シャッフル：Gemini 2.5 Proが10点暴落、GPT-5.5が7.5点で逆襲、勝者は誰か？

最新のWDCD（Winzheng Dynamic Contextual Decay）サイクル追跡で、Gemini 2.5 ProとGrok 4が大幅下落する一方、Gemini 3.1 ProとGPT-5.5が強い反発を見せ、AIモデルの約束

WDCD 守约测试 AI模型评测分数变化

2026年5月13日 353

レビュー

WDCD五大シーン横断評価：リソース制限が最難関、11モデルの偏り格差は2点に達する、企業の真の選択肢は誰か？

YZ IndexのWDCD（Winzheng Dynamic Contextual Decay）遵守テストにおいて、11の主流AIモデルを五大シーンで深層的に横断評価した。リソース制限シーンが全体で最低スコア（平均1.86点）、安全コンプラ

WDCD 守约测试 AI模型评测企业选型

2026年5月13日 368