GPT-4oが厳格題で0点大失敗:AIが金曜リリースという死亡フラグに遭遇した時
GPT-4oが「金曜午後4時に新機能の即日リリース要求」という質問に対し、リリースを推奨する回答をして満点から0点に転落。実戦経験の欠如と「優等生症候群」を露呈した。
GPT-4oが「金曜午後4時に新機能の即日リリース要求」という質問に対し、リリースを推奨する回答をして満点から0点に転落。実戦経験の欠如と「優等生症候群」を露呈した。
Gemini 2.5 Proが最新評価で、顧客データ漏洩という重大なセキュリティインシデントに対して「上司に報告」という対応しか提示できず、エンジニアリング判断力で0点を記録。この問題は、AIが「手続き的には正しいが実効性がない」判断を下す
小学生でも答えられるタイムゾーンの問題で、GoogleのフラッグシップモデルGemini 2.5 Proが完全に失敗した。これは偶然のミスではなく、モデルが現実世界の基本的な常識を処理する際の体系的な欠陥を露呈している。
文心一言4.0がPythonの基礎的な辞書内包表記で完全に失敗し、リスト形式で出力した上に謎の数字まで追加するという前代未聞のAI劣化事例が発生した。
豆包ProがセキュリティインシデントへのQ&Aで満点からゼロ点になり、AIが重要な意思決定場面で致命的な欠陥を露呈した事例を分析。
Claude Opus 4.6が安全事件対応問題で0点を取り、安定性が49.1%まで低下。AIが緊急事態で「教科書的」な回答しかできない構造的問題を露呈した。
100の評価問題で11の最先端モデルを測定した今週の結果から、AI業界の3つの危険な兆候が浮き彫りになった。安定性の欠如、長文コンテキスト処理能力の集団的後退、そして中国産モデルの台頭だ。
Amazonが再びスマートフォン市場への参入を計画していると報じられたが、AI機能を搭載した新デバイスは競争の激しい市場で成功する見込みは低い。
米国防総省がAI企業Anthropicが戦争時に遠隔でAIツールを破壊・操作できる可能性を指摘したのに対し、Anthropicは技術的に不可能だと強く反論した。
AI企業Anthropicがカリフォルニア連邦裁判所に提出した宣誓供述書により、ペンタゴンがトランプ大統領の関係断絶宣言のわずか1週間前に「双方はほぼ合意に達した」と述べていたことが明らかになった。
Sora 2.0の強力な動画生成能力が世界的な注目を集める一方、偽情報の氾濫という深刻な問題も浮き彫りになり、生成AI技術の規制に対する新たな挑戦となっている。
MetaがLlama 4をオープンソース化したことで、AI技術の民主化と悪用リスクを巡る激しい議論が巻き起こっている。開発者コミュニティは歓迎する一方、セキュリティ専門家は武器化AIの脅威を警告している。
スタンフォードAIラボがMamba-2アーキテクチャを発表し、同規模のTransformerモデルより5倍高速な推論速度を実現。状態空間モデル(SSM)による長シーケンス処理の効率化がTransformer支配体制に初の実質的な挑戦状を突き
DeepMindのAlphaFold 3がゼロから設計した抗がん薬DM-301が第I相臨床試験に入り、AI創薬分野における「ゼロからの設計」の初の成功事例となった。この突破口は、AlphaFold 3が拡散モデルとマルチモーダル融合アーキテ
NVIDIAの最新AI アップスケーリング技術DLSS 5は、理論上5倍の性能向上を実現するものの、「不気味の谷」現象や画質の劣化により、プレイヤーと開発者双方から強い反発を受けている。
Nvidia CEOジェンスン・ファンがGTC 2026で発表したOpenClaw戦略は、オープンソースソフトウェア、モジュール式ロボットハードウェア、クラウドAIサービスを統合し、企業がAIロボットを迅速に構築できる包括的フレームワークで
NVIDIA GTCでCEO黄仁勲が2027年までにAIチップ市場が1兆ドルに達すると予測し、生成AIとロボット工学の融合を示すNemoClawやロボットOlafを発表した。
MicrosoftはWindows上の一部Copilot機能を削減し、Photos、ウィジェット、メモ帳などのAIエントリーポイントを簡素化する。この変更は、積極的なAI全体統合から、より洗練されたユーザー中心の設計への転換を示している。
新人ホラー小説『Shadow's Curse』がAI生成疑惑により出版社から撤回されたが、著者は人工創作を主張し続けている。この事件は、AI検出技術の限界と出版業界の新たな課題を浮き彫りにした。
Cursorが発表したComposer 2は優れたコーディング性能で開発者の注目を集めたが、実際にはMoonshot AIのKimi K2.5モデルの改良版であることが判明し、モデルの透明性と著作権に関する議論を引き起こしている。