AIのファクトチェック誤り率は想像以上に高い

AIのファクトチェック誤り率は想像以上に高い

ChatGPTなどの大規模言語モデルがファクトチェックに用いられ始めた時、多くの人々はAIがニュース生産の効率を大幅に向上させると楽観的に考えた。しかし、WIREDの専門ファクトチェッカーであるMeghan Herbstは、最近の実験において、AIのファクトチェックにおける誤り率が一般の認識をはるかに上回ることを発見した。彼女は、AIが出所や引用を捏造するだけでなく、一見単純な統計数字においても系統的な偏りを示すと指摘している。

AIの「幻覚」問題:偶発的ではなく、常態化

Herbstは実験で、政治的声明、科学データ、歴史的事件など異なる分野からの10件の論争的な記述を選び、AIモデルに一つずつ真偽を判定し、証拠を提示するよう求めた。結果として、AIは10件中7件の記述に対して重大な誤判定を示した。誤りには、正しい数字を誤った数字に書き換える、存在しない研究のために著者名をでっち上げる、全く関係のない法律条文を裏付けとして引用するなどが含まれていた。彼女は、これらは偶発的な誤りではなく、モデルが真の意味理解を欠いているときに生じる「埋め合わせ型幻覚」であると強調している。

「AIは、正直に『知らない』と認めるよりも、もっともらしい嘘を生成する傾向があるようだ。」——Meghan Herbst

業界背景:ファクトチェックの自動化が危険な諸刃の剣である理由

実際、AIのファクトチェック分野への応用はすでに議論を引き起こしている。2025年、複数のメディアがAIを使った迅速なファクトチェックレポートの生成を試みたが、研究によれば、AIは曖昧な記述(政治的修辞における誇張表現など)を扱う際に、しばしば過度に絶対的または誤った結論を出してしまう。さらに深刻な問題として、AIは文脈中の感情的色彩や暗黙の前提を識別できず、倫理判断、文化的隠喩、複雑な社会問題に関わる場合にはほぼ必然的に失敗する。例えば、「ある政策が失業率の上昇をもたらした」という記述の検証を求められた場合、AIは統計数字を直接引用する一方で、その政策と失業率の間に因果関係が存在するかという中核的前提を見落とす可能性がある。

技術面から見れば、大規模言語モデルは本質的に確率に基づくテキスト生成器であり、事実検索器ではない。検索拡張生成(RAG)技術を使用しても、引用するデータベースに偏見や誤りがないことを保証することはできない。さらに、ファクトチェック業務自体が極めて高い即時性と地域性を有しており、AIモデルはローカライズされた法律、政策、突発的事件の情報をリアルタイムで更新することが難しい。

編集者注:AIは検証を補助できるが、「人間」を代替することはできない

このことをもってAIのファクトチェックにおける価値を全面的に否定すべきではない。情報量が爆発する現在、AIは疑わしい表現を迅速にマークし、予備的な背景資料を提供することで、人手による検証の照会時間を大幅に短縮できる。しかし、重要な結論の正確性や責任の所在においては、人間の判断は不可欠である。ジャーナリズム倫理の核心は真実への誠実さと誤りへの責任であり、これこそ現在のAIが担えない道徳的義務である。メディア機関がAIツールを導入する際には、厳格な人手による再確認プロセスを設け、AIが持ちうる限界を公開しなければならない。

今回の実験から得られた最も重要な教訓は、「知能的」と見なされるツールであればあるほど、人間による慎重な解釈が必要だということだ。AIの速度とカバー範囲は確かに魅力的だが、事実に直面する際、私たちは最後の防衛線——人間の常識と批判的思考——を決して放棄してはならない。

本記事はWIREDから編訳された。