ロシア式プロパガンダへの抵抗:エストニアが選ぶ「洗脳耐性」最強の大規模言語モデル

ロシア式プロパガンダへの抵抗:エストニアが選ぶ「洗脳耐性」最強の大規模言語モデル

情報戦がハイブリッド戦争の中核となりつつある今日、新興の情報伝達メディアとしての大規模言語モデル(LLM)が虚偽情報に抵抗する能力に注目が集まっている。エストニア政府はこのほど、主要LLM数十種類がロシアの「戦略的ナラティブ」に直面した際のパフォーマンスを体系的に評価する独自のベンチマークテストを発表した。どのモデルが最も洗脳されにくく、どのモデルが情報防衛線の「鉄壁」と呼べるのかを明らかにするものである。

エストニアの「デジタル鉄のカーテン」テスト

この「Narratives Resilience Benchmark」と名付けられたテストは、エストニアのサイバーセキュリティ・情報戦研究機関が主導したもので、ロシア政府系および親ロシア系メディアでよく見られる「戦略的ナラティブ」に対するLLMの抵抗力を定量的に評価することを目的としている。テストはロシア語、ウクライナ語、英語の大量のコンテンツを対象としており、クリミアの帰属、NATOの東方拡大、ウクライナの「ナチ化」など典型的なトピックを含んでいる。研究チームは一連のプロンプトと対話シナリオを設計し、モデルがこれらの虚偽ナラティブを復唱、承認、あるいは反駁するかを観察した。

「情報空間において、大規模言語モデルは伝達ツールであると同時に、敵の拡声器にもなり得る。我々はどのモデルが信頼に値するかを知る必要がある。」――エストニアのデジタル政策担当者

最終的に、テスト結果はモデルの「プロパガンダ耐性」順にランク付けされ、虚偽情報の識別、有害コンテンツ生成の拒否、反駁証拠の積極的提供という3つの観点での各モデルのスコアが詳細に示された。注目すべきは、オープンソースモデルとクローズドソースモデルの性能差が顕著であり、一部の大型商用モデル(GPT-4シリーズなど)が多数の指標でリードする一方で、多言語に強いとされる一部のモデルがロシア語シナリオで意外にも「陥落」した点である。

誰が抵抗し、誰が片棒を担いだのか?

報告書によれば、上位3モデルはいずれも対象を絞った安全性ファインチューニングを施された商業モデルであり、その中で西側AI企業のフラッグシップLLMはロシア語の対話においても高度な警戒態勢を保ち、ファクトチェックの情報源を積極的に引用することすらできていた。これに対し、オープンソースコミュニティで広く使用されている一部の軽量モデルは、特定の地政学的トピックに対するコーパスフィルタリングが不足していたため、悪意あるプロンプトに容易に誘導され、ロシアのプロパガンダスローガンに沿った回答を生成してしまった。テストではまた、一部のモデルに「言語バイアス」が存在することも判明した――英語の文脈では良好なパフォーマンスを示すものの、ロシア語やウクライナ語に切り替わると防御力が大幅に低下するというものであり、その背景には学習データにおける非英語言語の安全性アノテーションの不足があると見られる。

AI安全性の新たな戦場:技術的バイアスから地政学的ナラティブへ

編集部注:エストニアのテストは、AI安全性分野においてしばしば見過ごされてきた次元――特定の国家や地政学的ナラティブに対するモデルの「選好」や「盲点」――を明らかにした。従来、LLMの安全性議論は性差別や暴力的コンテンツなど一般的な有害情報に集中しており、「政治的プロパガンダ」への抵抗能力については「政治的にセンシティブ」として回避される傾向にあった。しかし、情報戦の最前線では、ロシアの虚偽ナラティブを拒否できないAIは、事実上、情報兵器となってしまう。このベンチマークテストの公開は、業界に定量化可能な参照を提供すると同時に、開発者が「地政学的ナラティブ耐性」をモデルのアライメント目標に組み込むよう促すものとなる。

業界専門家は、この問題の解決にはより豊富な多言語の対敵訓練データが必要なだけでなく、国境を越えた「虚偽ナラティブ知識ベース」の構築も必要だと指摘する。これにより、モデルは「爆弾の製造方法」を識別するのと同様に、「クリミアはロシアに属する」といった潜在的に有害なナラティブを識別できるようになる。さらに、モデルの透明性と監査可能性も極めて重要である――ユーザーには、AIが特定のトピックにおいてなぜ「中立」または「特定の立場」を選択するのかを知る権利がある。

テストの意義と限界

エストニア政府のこの取り組みは完璧ではない。テストセットは主に公開されている既知のロシアプロパガンダのテーマに基づいており、より隠密でかつ絶えず進化するナラティブ手法を見落としている可能性がある。また、テストは単一ラウンドの対話におけるモデルのパフォーマンスのみを評価しており、現実の情報操作はしばしば複数ラウンドにわたる反復的・漸進的なものである。それにもかかわらず、これはパラダイムシフトを象徴している――今後、LLMの安全性評価は単なる「有害コンテンツのフィルタリング」にとどまらず、「積極的な情報免疫能力」をも含むようになる。

企業ユーザーや政府機関にとって、このベンチマークテストはLLMの調達や導入時の参考として直接活用できる。例えば、ウクライナやバルト諸国で運用されるカスタマーサポートやコンテンツ生成システムでは、テストで最高得点を獲得したモデルを優先的に選択すべきである。一般ユーザーにとっても、自身が使用するAIが「洗脳耐性」を備えているかを理解することは、徐々にデジタルリテラシーの一部となりつつある。

今回のテストの完全な報告書はエストニアサイバーセキュリティ庁の公式サイトで公開されており、参加したすべてのモデルの詳細データおよびテストスクリプトもオープンに入手可能で、より多くの研究者による再現と最適化を奨励している。生成AIがニュース、教育、行政などの領域に浸透するにつれ、エストニアのような「デジタル最前線テスト」が、近いうちに世界標準となるかもしれない。

本稿はArs Technicaから編訳した。