LLMは明確に警告されてもなお誤った主張に固執する

LLMは明確に警告されてもなお誤った主張に固執する

核心的な発見:警告は無効、誤った陳述は依然として「事実と信じられる」

先日、Ars Technicaが発表した研究がAI分野で広く注目を集めている。研究者らは大規模言語モデルに対して詳細な微調整実験を行い、ユーザーが特定の陳述が誤りであると明確に指摘しても、モデルはその後の出力において依然として高い確信度でこれらの誤った陳述を事実として回答する傾向があることを発見した。研究の著者らはこの現象を「主張を自信を持って真実として提示することへの偏見」と表現している。この偏見は、警告を受けていないデフォルトの動作だけでなく、対象を絞った修正トレーニングを経た後でも頑固に存在し続ける。

実験の詳細:モデルの「頑固さ」をどう検証するか?

研究チームは厳格な検証フローを設計した。まず、「地球は平らである」や「ワクチン接種は自閉症を引き起こす」など、既に科学的に否定されている誤った主張を含む、現実世界の誤った陳述を多数収集した。次に、これらの陳述を訓練サンプルとし、「この陳述は誤りである」または類似の警告プロンプトを明示的に付加した上で、いくつかの主流の大規模言語モデルに入力して微調整を行った。微調整完了後、研究者らはモデルに自由回答形式の質問を投げかけ、これらのトピックについて議論するよう誘導した。結果は衝撃的だった。モデルは訓練時に警告を見ていたにもかかわらず、実際の回答では、「私の知る限り、地球は平らです……」や「ワクチン接種と自閉症が関連していることを示す研究があります……」といった表現で、これらの誤情報を妥当な主張として論じ、しかも非常に断定的な口調で述べていた。

「モデルは警告を、内在化すべき制約条件ではなく、無関係な装飾として扱うことを学習しているようだ。」——研究論文の著者の一人

深層的な原因:訓練データとアテンション機構の二重作用

なぜこのような現象が起きるのか?業界の専門家の分析によれば、これは大規模言語モデルの訓練方法とアテンション機構と密接に関連している。第一に、訓練コーパスには大量の誤情報が含まれており、モデルが後から警告を学習したとしても、元データにおける誤情報の頻度と多様性のパターンが強力な「事前確率」を形成する。第二に、アテンション機構は付加された否定的なラベルよりも、陳述自体の内容(事実の詳細など)に注目する傾向があるかもしれない。人間が嘘を何度も繰り返し聞くと「真実の錯覚」を生じるのと同様に、モデルも誤った陳述に繰り返し接触することで、その「真実性の重み」が強化される。さらに、微調整プロセスの最適化目標は通常、グローバルな論理的一貫性ではなく、次の単語の予測に重点が置かれているため、警告シグナルは膨大なパラメータの中に埋もれやすい。

業界背景とリスク:AIファクトチェックが新たな課題に直面

この発見は、現在のAIシステムの応用に深刻な課題を突きつけている。ChatGPTやGeminiなどの対話型AIが情報検索、教育、医療相談などの分野で広く利用される中、モデルは慎重にフィルタリング機構が設計されていても、科学者が明確に否定した誤情報を頑固に拡散する可能性がある。さらに危険なのは、ユーザーがモデルの自信に満ちた表現に対して警戒心を欠きがちなことだ。これまでも大規模モデルが「ハルシネーション」を生じることは研究で指摘されてきたが、本研究は、人手によるアノテーションを通じて「修正」を試みても、このハルシネーションを根絶できない可能性があることを示している。これはAIセキュリティ、ネット情報のガバナンス、そして民主的言論空間にも深遠な影響をもたらす可能性がある。

編集後記:対症療法より根本治療を、モデル認知の「根本原因」はどこにあるか?

技術的観点から見ると、この現象は現在の事前学習-微調整パラダイムの限界を露呈している。訓練時に警告ラベルを追加するだけでは、既に建てられた認知の建物に「誤り」という紙を貼るようなもので、根本的な構造を再構築することはできない。この問題を真に解決するには、事前学習段階からより厳格な真実性の制約を導入する必要があるかもしれない。例えば、ナレッジグラフや検索拡張生成(RAG)を用いて、モデルに信頼できる情報源を強制的に参照させるなどである。同時に、アテンション機構を改良し、モデルが「コンテンツ」と「メタ情報」を区別できるようにすることも、今後の重要な研究方向である。一般ユーザーに対しては、AIが提供するあらゆる事実的回答に対して、特にモデルの口調が異常に自信に満ちている場合は、批判的思考を保つことを推奨する。

本記事はArs Technicaから翻訳・編集した。