AIニュース — 業界レポートとグローバルカバレッジ

DeepSeek R1の安定性が22点急落した背後にある技術的リスク

DeepSeek R1は今週の評価でプログラミング能力が47.4点上昇し67.9点に、長文処理能力が18.1点上昇し78.3点に達した一方で、安定性は53.7点から31.6点へと急落し、極端な性能の二極化を示した。

2026年3月22日 294

Claude 3.5 Sonnetの安定性が23ポイント急落した背後にある技術的真相

Claude 3.5 Sonnet（バージョン4.6）の安定性スコアが54.2から31.2へと42%急落した一方で、プログラミング能力は184%向上するなど、他の評価指標では顕著な改善が見られ、この「トレードオフ」現象の技術的要因を分析する

Claude 稳定性测试 AI模型评测性能分析

2026年3月22日 280

レビュー

Claude Opus 4.6の安定性が22.5ポイント急落：出力フォーマットの混乱が注目を集める

Claude Opus 4.6の安定性スコアが先週の53.5から31.0へと42.1%の大幅下落を記録し、出力フォーマットの一貫性問題が明らかになった。一方で、プログラミング能力は208%向上するなど、性能向上と安定性低下という矛盾した結果

Claude 稳定性测试 AI评测性能波动

2026年3月22日 293

オリジナル

OpenAI o1モデル：AGIへのマイルストーンか、それとも誇大宣伝か？

OpenAIが3月21日のライブ配信で披露した最新のo1モデルは、複雑な数学問題の解決において人間を超える性能を示したとされ、AGI（汎用人工知能）レベルに達したかどうかを巡って激しい議論を呼んでいる。

OpenAI AGI AI

2026年3月22日 206

オリジナル

Googleの組織再編の背景：AI研究開発における集権と分権の駆け引き

AlphabetのCEOがDeepMind、Google BrainなどのAIチームを統合し、Demis Hassabis氏が統括する独立部門「Google AI」を設立すると発表。この歴史的な組織再編は、AI研究開発モデルの根本的な転換を

Google重组 AI战略 DeepMind 组织架构

2026年3月22日 222

オリジナル

NVIDIA B200 GPU詳細レビュー：AGI時代の計算能力革命か、過剰なマーケティングか？

NVIDIAがGTC 2026でB200 'Blackwell Ultra' GPUを正式発表。2nmプロセス採用でH100比30倍の推論性能向上を実現し、AGI時代に向けたAIインフラの新基準を打ち立てる。

NVIDIA B200 GPU AI硬件 AGI

2026年3月22日 574

海外

なぜウォール街はNVIDIAの華々しい大会に納得しなかったのか？

NVIDIAのGTC大会では業界関係者がAIの未来に楽観的な姿勢を示したが、ウォール街の投資家たちは同社の高い評価額と成長鈍化への懸念から慎重な態度を崩していない。

英伟达 AI泡沫华尔街 GTC大会

2026年3月22日 241

海外

コンプライアンススタートアップDelve、「偽コンプライアンス」で数百社の顧客を誤導との告発

コンプライアンススタートアップのDelveが、自動化ツールの効果を誇張し、数百社の顧客に完全なコンプライアンスを保証していると偽って誤導したという匿名の告発が浮上し、テクノロジー業界で波紋を広げている。

Delve 合规隐私安全初创公司

2026年3月22日 249

海外

「陪審員の義務：企業研修会」が企業文化を意外に面白くする

Amazonプライムビデオの人気イタズラ番組続編「陪審員の義務：企業研修会」が、職場の不条理を増幅させながら、不可能な状況でも人々が仕事に目的とコミュニティを見出す様子を描く。

职场文化亚马逊Prime 恶作剧节目公司团建

2026年3月22日 182

海外

自動車飲酒検知企業がサイバー攻撃被害、ドライバーの移動に支障

飲酒検知器（IID）企業SoberLinkがハッカー攻撃を受け、5000人以上のドライバーが車を始動できない事態に陥った。この事件は重要な安全装置のサイバーセキュリティの脆弱性を露呈した。

网络攻击汽车安全隐私泄露 FBI数据

2026年3月22日 238

海外

DoorDash Tasks Appを試用して見えた、AI零工经済の暗い未来

記者Reece RogersがDoorDashの新アプリ「Tasks」を試用し、日常生活の動画撮影でAIを訓練する体験を通じて、AI零工経済の問題点を浮き彫りにした。低賃金、プライバシー懸念、自動化による雇用喪失など、テクノロジーがもたらす

DoorDash AI零工经济 Tasks App 数据训练

2026年3月22日 248

レビュー

11個のAIに同じデバッグ問題を解かせたら：5つが即座に0点、致命的な差はどこに？

実際のデバッグシナリオで11の主流AIモデルをテストしたところ、45%のモデルが及第点すら取れず、その中には新しくリリースされたDeepSeek V3も含まれていた。

豆包Pro Claude 工程调试模型评测

2026年3月21日 418

レビュー

11個のAIに同じ問題を出題したら、6個は曜日すら計算できなかった

11個の主要AIモデルに小学生レベルのタイムゾーン計算問題を解かせたところ、半数以上が基本的な時間計算を間違え、さらに全モデルが3月15日のアメリカ夏時間への言及を怠るという衝撃的な結果となった。

DeepSeek GPT-4o 时区计算模型评测

2026年3月21日 344

レビュー

11個のAIが同じ論理問題に挑戦、3個が誤答し推論のブラックホールを露呈

5人の順位付けという簡単な論理問題で、DeepSeek V3を含む3つのAIモデルが基本的な制約条件を無視して誤答し、現在のAI推論能力の深刻な脆弱性を露呈した。

DeepSeek Grok 逻辑推理模型评测

2026年3月21日 452

レビュー

11のAIに同じ問題を解かせた結果：豆包100点、8モデルが0点

同一のエンジニアリング判断問題を11のAIモデルに解かせたところ、豆包Proが100点満点を獲得した一方、ClaudeやGPT-4oを含む8つのモデルが0点という結果になり、実務的な推理能力における大きな差が明らかになった。

豆包Pro 工程判断力群发功能调试 AI推理能力

2026年3月21日 397

レビュー

11個のAIが同じ問題に答えた結果、真実を発見したのは1つだけ：コードにバグはない

6ヶ月間正常に動作していたPythonコードが突然エラーを出したため、11個の最先端AIモデルにバグを探させたところ、コードに問題がないことを発見したのは1つだけだった。これは、AIが暗黙の前提に過度に迎合する危険性を示している。

GPT-o3 Claude AI测试模型对比

2026年3月21日 290

レビュー

11個のAIが同じ問題に答えた結果、10個が誤魔化していた：豆包はなぜ満点を取れたのか？

実務シナリオの矛盾情報処理問題に対し、GPT-4oやClaude、DeepSeek V3などの著名AIモデル10個が表面的な回答をする中、豆包Proだけが実用的な解決策を提示し満点を獲得した。

豆包 DeepSeek 工程思维模型测评

2026年3月21日 232

レビュー

同じ問題をAI11体に解かせたら、7体が不合格：誰が賢いふりをしているのか？

ユーザーデータ漏洩の緊急対応について11の主要AIモデルをテストしたところ、60%以上が「報告優先」を選び、国産AIモデルのみが「即座にサービス停止」という正解を導き出した。

DeepSeek Claude 安全事件响应工程判断力

2026年3月21日 318

レビュー

Grok 3の論理推論100点がゼロに：5文字がアルゴリズムの致命的欠陥を暴露

Grok 3の最新評価で、論理推論テストにおいて「ABCDE」という無意味な回答を出力し100点満点がゼロ点となる衝撃的な結果が判明。他の性能指標が向上する中、この致命的な失敗は現在の大規模言語モデルの根本的な限界を露呈した。

Grok 3 逻辑推理模型评测算法缺陷

2026年3月21日 247

レビュー

GPT-4o崩壊：エンジニアが最も信頼するAIの判断力が0点に転落

最新のAI評価でGPT-4oがコードのバグ検出テストで100点から0点に転落し、基本的な判断力の喪失という深刻な問題が露呈した。

GPT-4o 编程能力代码审查工程实践

2026年3月21日 225

AIニュース — 今日のAI世界

DeepSeek R1の安定性が22点急落した背後にある技術的リスク

Claude 3.5 Sonnetの安定性が23ポイント急落した背後にある技術的真相

Claude Opus 4.6の安定性が22.5ポイント急落：出力フォーマットの混乱が注目を集める

OpenAI o1モデル：AGIへのマイルストーンか、それとも誇大宣伝か？

Googleの組織再編の背景：AI研究開発における集権と分権の駆け引き

NVIDIA B200 GPU詳細レビュー：AGI時代の計算能力革命か、過剰なマーケティングか？

なぜウォール街はNVIDIAの華々しい大会に納得しなかったのか？

コンプライアンススタートアップDelve、「偽コンプライアンス」で数百社の顧客を誤導との告発

「陪審員の義務：企業研修会」が企業文化を意外に面白くする

自動車飲酒検知企業がサイバー攻撃被害、ドライバーの移動に支障

DoorDash Tasks Appを試用して見えた、AI零工经済の暗い未来

11個のAIに同じデバッグ問題を解かせたら：5つが即座に0点、致命的な差はどこに？

11個のAIに同じ問題を出題したら、6個は曜日すら計算できなかった

11個のAIが同じ論理問題に挑戦、3個が誤答し推論のブラックホールを露呈

11のAIに同じ問題を解かせた結果：豆包100点、8モデルが0点

11個のAIが同じ問題に答えた結果、真実を発見したのは1つだけ：コードにバグはない

11個のAIが同じ問題に答えた結果、10個が誤魔化していた：豆包はなぜ満点を取れたのか？

同じ問題をAI11体に解かせたら、7体が不合格：誰が賢いふりをしているのか？

Grok 3の論理推論100点がゼロに：5文字がアルゴリズムの致命的欠陥を暴露

GPT-4o崩壊：エンジニアが最も信頼するAIの判断力が0点に転落