AIニュース — 今日のAI世界

Amazon Trainiumチップ研究所独占見学：Anthropic、OpenAI、そしてAppleまでも魅了

AmazonのTrainiumチップが高いコストパフォーマンスとカスタマイズ性でAI大手を次々と獲得。OpenAIへの500億ドル投資の中核技術として、AI業界の勢力図を塗り替えつつある。

亚马逊Trainium AIチップ OpenAI投资 Anthropic

2026年3月23日 270

Delveが「虚偽のコンプライアンス」で数百の顧客を誤導したと告発される

コンプライアンススタートアップのDelveが、匿名のSubstack投稿で「虚偽のコンプライアンス」により数百の顧客を誤導したと告発され、技術界で大きな議論を呼んでいる。

Delve 合规初创隐私法规 AI 数据安全

2026年3月23日 169

マスク、SpaceXとテスラのチップ製造野心計画を公表

イーロン・マスクがSpaceXとテスラの共同チップ製造計画を発表し、2028年稼働予定のテキサス州新工場で自動運転とロケット制御用の高性能チップを自社生産する計画を明らかにした。

埃隆·马斯克芯片制造 SpaceX 特斯拉

2026年3月23日 306

Cursor、新しいコーディングモデルが中国Moonshot AIのKimiに基づいて構築されたことを認める

米国スタートアップCursorが、最新のコーディングモデルが実際には中国Moonshot AIのKimi大規模モデルに基づいて構築されたことを公に認め、業界で大きな議論を呼んでいる。

Cursor Moonshot AI Kimi模型 AI编码

2026年3月23日 605

Grok 3の安定性が22.5点暴落：AIが実際のエンジニアリング場面に遭遇すると化けの皮が剥がれる

Grok 3の安定性スコアが54.2点から31.7点へと41.5%も暴落し、プログラミング能力が向上する一方で、実務判断力の欠如というAIモデルの致命的な弱点が露呈した。

Grok 3 稳定性测试工程判断力 AI评测

2026年3月22日 474

GPT-o3が崩壊：31分の暴落が露呈した致命的な欠陥

「最強」を謳うAIモデルGPT-o3が1週間で可用性を100点から69点に急落させ、長文コンテキスト能力や安定性でも大幅な性能低下を示した。この崩壊は単一指標の過度な最適化がもたらしたシステム全体の失調を露呈している。

GPT-o3 可用性测试模型稳定性长上下文处理

2026年3月22日 372

GPT-o3の崩壊：性能変動ではなく、アーキテクチャレベルでのシステム崩壊

GPT-o3の安定性スコアが53点から28点に急落し、可用性も100点から69点に低下。これは単なる性能変動ではなく、アーキテクチャレベルの根本的な設計欠陥によるシステム崩壊である。

GPT-o3 稳定性测试模型架构性能退化

2026年3月22日 350

GPT-o3がクラッシュ：30秒で5回のレート制限、長文評価で33.5点の暴落

GPT-o3が長文コンテキスト評価テストで深刻なAPI制限エラーを起こし、スコアが62.3点から28.8点に暴落。OpenAIのインフラ不足が露呈した。

GPT-o3 长上下文 API限流模型稳定性

2026年3月22日 372

GPT-4oが崩壊：35点暴落の背後にある厳格モードの罠

GPT-4oが「厳格ツール呼び出し」機能の導入により壊滅的なパフォーマンス低下を経験し、使用可能性スコアが100点から65点に暴落。過度に慎重な動作により実用性を失った。

GPT-4o 可用性测试严格模式工具调用

2026年3月22日 332

豆包 Pro の安定性大幅低下の背後にある技術的リスク

豆包 Pro は今週の評価でプログラミングや知識作業などの面で大幅な向上を見せた一方、安定性スコアが54.5点から34.7点へと36.3%も急落するという異常な現象を示しました。この「進歩と退化の併存」現象の技術的要因を詳しく分析します。

豆包Pro 稳定性测试 AI评测模型性能

2026年3月22日 541

GPT-4oが崩壊：5問全滅でOpenAIのインフラ問題が露呈

長文コンテキストテストでGPT-4oが5問全てレート制限エラーで失敗し、OpenAIが深刻なインフラ危機に直面していることが明らかになった。

GPT-4o 长上下文 OpenAI基础设施 API限流

2026年3月22日 357

Gemini 2.5 Pro崩壊：安定性が23点暴落、その背後にあるエンジニアリング判断力の不足

Gemini 2.5 Proの安定性スコアが1週間で22.8点も暴落し、プログラミング能力向上と引き換えに深刻な信頼性の問題を露呈した。

Gemini 2.5 Pro 模型稳定性 Google AI 工程判断力

2026年3月22日 469

文心4.0の安定性が22点急落：百度AIはなぜ肝心な時に問題を起こすのか

最新のWinzheng AI評価データによると、文心一言4.0はプログラミング能力が41.4点向上した一方で、安定性が22.1点急落し、百度が性能向上のために安定性を犠牲にしている可能性が明らかになった。

文心一言4.0 稳定性测试百度AI 模型可靠性

2026年3月22日 358

Qwen Max 安定性が22.8ポイント急落：モデル更新により出力品質に変動

Qwen Maxは今週の評価で極端な二面性を示し、プログラミングや長文処理などの複雑なタスクでは大幅に向上した一方、安定性では崖っぷちのような急落を見せました。

Qwen Max 稳定性测试 AI评测模型更新

2026年3月22日 314

Gemini 2.5 Proの安定性が断崖絶壁のように急落した背後にある技術的隠れたリスク

今週の評価データによると、Gemini 2.5 Proの安定性指標が54.0点から31.2点へと42.2%も急落し、他の次元での全般的な向上とは対照的に、出力品質の一貫性維持における深刻な問題が露呈した。

Gemini 模型稳定性性能评测 AI安全性

2026年3月22日 368

DeepSeek R1の安定性が22点暴落：簡単な判断問題で全滅した真相

DeepSeek R1の安定性スコアが53.7点から31.6点へと41.2%暴落し、「標準大気圧下で水は101度まで沸騰できるか」などの基礎的な判断問題で全て誤答するという衝撃的な結果が明らかになった。

DeepSeek R1 稳定性测试 AI推理失败模型退化

2026年3月22日 315

Claude 4.6バージョンがクラッシュ：23ポイント急落の背後にあるアルゴリズムのブラックホール

Claude 4.6のプログラミング能力が38.3ポイント向上した一方で、安定性が54.2から31.2へと壊滅的に低下し、アルゴリズムレベルでのシステム崩壊が発生した。

Claude 稳定性测试模型退化算法缺陷

2026年3月22日 373

文心一言4.0の安定性が22点急落、その背後にある技術的隠れたリスク

文心一言4.0は今週の評価でプログラミング能力が大幅に向上した一方、安定性スコアが52.1点から30.0点へと急落し、モデルのアップグレードプロセスに深刻な問題が存在する可能性を示している。

文心一言模型稳定性性能评测 AI测评

2026年3月22日 270

DeepSeek V3の安定性が21.4ポイント急落した技術的分析

DeepSeek V3は今週の評価でプログラミング能力が42.6ポイント向上した一方、安定性指標が53.4から32.0へと急落し、極めて矛盾した性能を示した。

DeepSeek V3 稳定性测试模型评测性能波动

2026年3月22日 288

11個のAIモデルが一斉に40点急上昇：プログラミングテストで何が起きたのか？

11個のAIモデルのプログラミング能力が1週間で一斉に約40点急上昇した異常なデータの背後には、中国製モデルの全面的なリード、OpenAIの急落、長文処理能力の重要性向上という3つの重要なシグナルが隠されている。

DeepSeek GPT-o3 编程能力测试模型评测异常

2026年3月22日 279