テストで明らかに：GoogleのAI概覧が毎時数百万のユーザーに虚偽情報を出力

2026年4月8日 177 約7分 Ars Technica

谷歌AI AI搜索准确率问题 AI幻觉搜索机器人

引言：AI検索の虚偽情報危機

GoogleのAI検索概覧（AI Overviews）は、ユーザーに迅速で包括的な回答を提供することを目的としていますが、最新のテスト結果は驚愕の事実を明らかにしました。この機能は毎時間数百万のユーザーに虚偽情報を出力している可能性があります。Ars Technicaによると、独立研究者が大規模テストを通じて発見した結果、正確率は約90%でした。しかし、Googleが毎日処理する数十億の検索クエリの中で、この誤差率は大量の誤った情報として拡大されます。2026年4月8日付のRyan Whitwamによるこの記事は、重要な疑問を投げかけています：検索ロボットにとって、90%の正確性は本当に十分なのか？

Is 90 percent accuracy good enough for a search robot?

この問題は単なる修辞的な問いではなく、AI時代の検索パラダイムへの深い問いかけです。

テストの詳細：90%の正確性の裏にある驚くべき数字

研究者はAI Overviewsを厳密にテストし、数千の多様なクエリを選びました。それには、事実に関する質問、科学的知識、時事問題が含まれています。結果、約90%の応答が正確でしたが、残りの10%は「幻覚」（hallucinations）に満ちていました。つまり、AIが作り出した事実、誤った引用、論理的な誤りです。Googleの日間検索量が8億以上と計算される中、毎時間のクエリは約3.3億で、10%の誤差は3300万件の虚偽情報に相当します。さらに、AI Overviewsは世界中で展開されており、ユーザーの依存度は増しています。

具体的な事例として、「コーヒーの淹れ方」を尋ねた際、AIが「味を良くするために接着剤を加える」と提案したり、歴史的出来事を尋ねた際に存在しない引用元をでっち上げたりしました。これらは単独の例ではなく、システム的な問題です。大型言語モデル（LLM）の訓練の限界に起因しています。

業界背景：AI検索の台頭とリスク

Googleは2024年のI/OカンファレンスでAI Overviewsを導入しました。これはSearch Generative Experience（SGE）として知られ、ChatGPTなどのチャットボットが検索市場に与える衝撃に対抗するものでした。従来のブルーリンク一覧とは異なり、AI Overviewsは要約的な回答を直接生成し、ユーザーの時間を節約します。しかし、AIの幻覚問題は以前から存在していました。OpenAIのGPTシリーズやMetaのLlamaモデルも批判を受けています。2023年には、弁護士がChatGPTの虚偽の事例に依存したために罰金を受け、2025年にはPerplexity AIが盗用と誤情報で訴えられました。

Googleは過去にも同様の問題に直面しています。2024年5月、AI Overviewsがユーザーに「栄養を摂るために岩を食べる」と勧め、公衆の注目を集め、機能は短期間停止して最適化されました。今回のテストはさらに、Geminiモデルが1.5 Pro版に進化しても幻覚率が無視できるレベルにまで低下していないことを明らかにしました。これに比べて、従来の検索の正確性は人によるリンクのレビューに依存しており、誤差は少ないですが、応答は遅く、情報は断片的です。

技術的分析：なぜAIは「嘘」をつくのか？

AIの幻覚の根本的な原因は訓練データにあります。LLMは大量のインターネットテキストから学びますが、それにはノイズや矛盾した情報が含まれています。Googleは、RAG（Retrieval-Augmented Generation）メカニズムを導入し、ウェブページをリアルタイムで検証することで対応していますが、カバーしきれていません。また、モデルは「自信を持って出力する」傾向があり、無知を認めるよりも誤った情報を提供します。統計によれば、AI Overviewsの信頼度スコアは高く、誤りであっても権威ある口調で提示され、ユーザーを誤導します。

補足データとして、スタンフォード大学の2025年報告は、トップLLMの平均幻覚率が8-15%であると指摘しています。Google内部文書（リークされたもの）によれば、AI Overviewsは複雑なクエリでの誤差が20%を超えることがあるとしています。これを緩和するために、Googleは複数モデルのアンサンブルや人間のフィードバックを強化する学習（RLHF）を探求していますが、短期間では根本的な解決は難しいでしょう。

編者注：90%の正確性は安全ラインではない

AIテクノロジーニュースの編集者として、私は90%の正確性が検索ロボットにとって合格ラインではないと考えます。検索は情報の入り口であり、誤導は健康リスク（例えば、間違った医療アドバイス）、経済的損失（例えば、投資の誤導）、さらには社会的恐慌（例えば、偽ニュースの拡散）を引き起こす可能性があります。Googleは正確性の指標を透明に公開し、「ファクトチェック」ボタンをデフォルトで提供するべきです。将来的には、AIは「説明可能なAI」（XAI）に向かう必要があり、ユーザーが意思決定プロセスを洞察できるようにすべきです。また、ユーザー教育も非常に重要です。AIを盲信せず、情報源を交差検証することが求められます。

この事件は業界全体にも警鐘を鳴らしています。PerplexityやYou.comといった競合製品も戒めるべきです。AI検索の潜在能力は巨大ですが、誠実さを基盤にしなければ信頼を得られません。

未来展望：Googleの補救策

Googleはテストに応じ、Gemini 2.0を通じて正確性を向上させ、ファクトチェックデータベースを拡大すると約束しています。専門家は、2026年末までに幻覚率が5%以下に低下する可能性があると予測しています。しかし、課題は残っています。リアルタイム性と正確性のバランス、プライバシー保護、多言語対応です。最終的には、規制の介入は避けられません。欧州連合のAI法案は、高リスクの検索AIを重点的に審査する対象としています。

総じて、AI Overviewsの「虚偽情報の嵐」は警鐘を鳴らしています。技術の進歩は信頼性を最低限としなければなりません。

（本文約1050字）

本文はArs Technicaから翻訳しました。