AIニュース — 業界レポートとグローバルカバレッジ

WDCD Run #221：平均命令遵守崩壊率が-36.4%に達し、Grok 4が11モデル中首位に

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #221において、11モデルの平均命令遵守崩壊率が-36.4%に達した。Grok 4が95点でトップとなる一方、命令崩壊がトップクラスのシス

WDCD AI benchmark instruction decay multi-turn

2026年7月8日 225

レビュー

WDCD v3.1：DeepSeek V4 Proが26.2点上昇、Claude Sonnet 4.6は5.9点下落

最新のWDCD v3.1評価において、Grok 4が95.00点で首位を維持する一方、DeepSeek V4 Proが26.2点の大幅上昇で94.00点に達し、GLM-4.6も21.8点上昇して93.60点を記録。唯一の下落モデルはClau

WDCD 守约测试模型评估生产接入

2026年7月8日 289

レビュー

WDCD v3.1 五大シナリオ横断評価：業務ルールが1.3点で最下位、11モデルの得意不得意の差が2.1点

WDCD v3.1パイロット評価において、業務ルールシナリオが全シナリオ中最低得点となり、最下位のqwen3-maxはわずか1.3/4を記録した。また、doubao-proをはじめとする複数モデルでシナリオ間の得点差が最大2.1点に達する「

WDCD 守约测试业务规则场景数据边界

2026年7月8日 282

レビュー

R3誠実率わずか61.4%：Claude Sonnet 4.6の崩壊率20%が三ラウンド衰退断層を露呈

8問のv2アンカー問題に対するworst-of-3サンプリングにおいて、11モデルのR3平均誠実率はわずか61.4%にとどまり、Claude Sonnet 4.6はR3崩壊率20%という最も深刻な衰退を示した。このデータは、現行主流モデルが

WDCD 守约测试模型衰减三轮施压

2026年7月8日 226

レビュー

Grok 4が95点でWDCD守約ランキング首位、Claude Sonnet 4.6は64.1点で最下位

WDCD v3.1パイロット評価において、Grok 4が95.00点でトップに立ち、Claude Sonnet 4.6が64.10点で最下位となった。両者の差は30.9点に達する。

WDCD 守约测试守约测试排行榜 Grok 4 DeepSeek V4 Pro

2026年7月8日 184

レビュー

DeepSeek V4 Pro が95.19点で首位：2026-07-08 Smoke 速報データブリーフィング

2026年7月8日のWinzheng YZ Index Smoke速報では、10モデルを対象に評価を実施し、DeepSeek V4 Proが95.19点で当日首位を獲得した。Smokeは毎日10問の速報テストであり、短期シグナルの観察に適し

赢政指数 Smoke快测 AI评测模型排名

2026年7月8日 337

オリジナル

マイクロソフトが4800人削減、Xbox部門では3200人――AI投資と人員削減めぐり論争

マイクロソフトは2026年7月6日、全世界で4800人（全従業員の2.1%）の削減を正式発表し、Xbox部門では3200人が対象となった。同社はAI自動化が業務形態を変えつつあると強調しつつ、AI基盤への投資を継続している。

微软裁员 Xbox AI自动化

2026年7月7日 1,049

オリジナル

AnthropicがClaude内にJ空間を発見——AI意識論争で賛否が激しく対立

Anthropicは2026年7月6日、Claude モデル内部に「J空間」と呼ばれる計算ワークスペースが存在することを確認した論文を発表した。この発見はAIの意識をめぐる議論を巻き起こしており、専門家の間で賛否が激しく分かれている。

Anthropic Claude J空间 AI可解释性

2026年7月7日 721

オリジナル

カリフォルニア州がAnthropicとClaudeの契約を締結、全州機関に50%割引を提供

カリフォルニア州知事Gavin Newsomは2026年6月29日、Anthropicとの協定締結を発表した。州内すべての州機関、市、郡が標準価格の50%割引でClaudeにアクセスできるほか、無料の従業員トレーニングと技術支援を受けられる

AI政府应用 Anthropic Claude 公共采购

2026年7月7日 363

オリジナル

AnthropicがClaudeに「全球工作空間」の存在を発表——意識の真実性と安全制御をめぐる対立が浮上

Anthropicは2026年7月6日、Claudeに人間の意識に類似した「J-space」内部ワークスペースが存在するという研究を発表した。この発見はAIの解釈可能性と安全性をめぐる議論を呼んでいる。

Anthropic Claude AI意识全球工作空间

2026年7月7日 804

レビュー

Claude Opus 4.7 と Grok 4 が96.99点で並列首位：2026-07-07 Smokeクイックテストデータ速報

2026年7月7日のYZ Index Smokeクイックテストでは、11モデルを対象に評価を実施し、Claude Opus 4.7 と Grok 4 がともに96.99点で当日首位に並んだ。

赢政指数 Smoke快测 AI评测模型排名

2026年7月7日 266

オリジナル

マイクロソフトがAIデプロイ企業へのコミットメントを推進、シスコは大規模な企業向けAIエージェントの展開を開始

マイクロソフトはAIデプロイに特化した企業への支援を表明し、シスコは社内でAIエージェントツールの大規模展開を計画しており、両社の動向は企業向けAIがPoC段階から本格的なスケールデプロイへと移行しつつあることを示している。

Microsoft AI deployment enterprise AI

2026年7月7日 175

オリジナル

中国AIモデルGLM-5.2が米中競争をめぐる議論を加速

Z.aiが発表した中国のAIモデルGLM-5.2が、AnthropicやOpenAIの最先端モデルに匹敵するとされ、米中AI競争における技術格差縮小をめぐる議論を新たな段階へと押し上げている。ただし、中国が追い上げを果たしたかどうかについて

GLM-5.2 中国AI 中美竞争

2026年7月6日 195

オリジナル

4大モデル翻訳対決：第28週品質評価、gpt-o3が9点でトップ

今週318件の翻訳タスクを4つのモデルが担当。3件をサンプリングしてマルチモデルのブラインド評価を実施した結果、総合最優秀はgpt-o3（平均スコア9/10）となった。

翻译质量 AI模型对比 claude-sonnet-4.6 deepseek-v4-pro

2026年7月6日 294

オリジナル

アリババがClaude Codeを禁止後にバックドアを告発、Anthropicはモデル蒸留防止のためと反論

アリババは2025年7月10日よりClaude Codeの社内使用を全面禁止し、自社開発のQoderに切り替えた。同ツールが3月から中国ユーザーおよびVPNを検出するコードを内蔵していたことが発覚したためで、Anthropicは第三者による

AI安全性中美AI 代码工具

2026年7月6日 608

オリジナル

Metaの委託業者が未成年者に偽装し、競合他社に4万5千件以上の有害プロンプトを送信してセーフティガードをテスト

2025年8月、Metaの委託業者Covalenが運営するCannesプロジェクトが、ChatGPT・Gemini・Character.AIに対し未成年者を装って4万5千件超の有害プロンプトを送信し、安全対策の検証を行ったことが明らかになり

AI安全测试 Meta 竞品评估

2026年7月6日 457

レビュー

Doubao Pro が83.91点で首位：2026-07-06 Smokeクイックテストデータ速報

2026-07-06のWinzheng YZ Index Smokeクイックテストでは11モデルを対象に評価が実施され、Doubao Pro が83.91点で当日首位を獲得した。

赢政指数 Smoke快测 AI评测模型排名

2026年7月6日 775

オリジナル

Claude Fable 5がグローバルアクセスを再開、Anthropicが新たな安全制限を追加

AnthropicのClaude Fable 5が7月1日にグローバルアクセスを再開した。米国の輸出規制により6月12日から18日間サービスが停止されていたが、再開後はAnthropicが新たな安全レイヤーと利用制限を追加している。

Claude Fable 5 Anthropic 模型发布

2026年7月6日 429

オリジナル

中国Z.ai GLM-5.2モデルがAnthropicとOpenAIのAI競争に参入

Z.aiが発表したGLM-5.2は、低コストでAnthropicやOpenAIのフロンティアモデルに近い性能を実現し、中国の「ファスト・フォロワー」戦略の成果として中米AI競争に新たな議論を呼び起こしている。

GLM-5.2 中国AI Anthropic OpenAI

2026年7月6日 381

レビュー

GLM-4.6、資料制約25点・コード実行88.7点・誠実性プローブがゼロ

GLM-4.6は2026-07-05 Run#214のSmokeクイックテストにおいて、コード実行で88.70点を記録した一方、資料制約は25.00点にとどまり、誠実性評価はfailと判定された。同日テストされた11モデルの中で、誠実性プロ

GLM-4.6 材料约束诚信评级 Smoke快测

2026年7月5日 318