辞書大手がOpenAIを提訴：約10万本の記事の著作権侵害を主張

2026年3月17日 685 約6分 TechCrunch

OpenAI 版权诉讼 AI训练数据大英百科全书 Merriam-Webster

AI技術が急速に発展する現在、著作権紛争は生成AIを手がける企業にとって最大の痛点の一つとなっている。このほど、著名な百科事典『ブリタニカ百科事典』（Encyclopedia Britannica）と権威ある辞典メリアム・ウェブスター（Merriam-Webster）がOpenAIに対して正式に訴訟を提起し、大規模言語モデル（LLM）の訓練に約10万本の高品質記事を無断で使用したと訴えている。この事件はAIデータ訓練のグレーゾーンを露呈しただけでなく、より多くのコンテンツ制作者による集団的な権利擁護の波を引き起こす可能性がある。

訴訟の核心：約10万本の記事がAI訓練に使用

TechCrunchの報道によると、この訴訟はAmanda Silberlingが2026年3月17日に執筆した記事で明らかにされた。原告側は、OpenAIがChatGPTやGPTシリーズのモデルを開発する際、『ブリタニカ百科事典』とMerriam-Websterの項目、定義、百科事典記事を大規模にスクレイピングし利用したと主張している。これらのコンテンツは総数約10万本に上り、歴史、科学、言語学など複数の分野をカバーし、人類の知識の精華である。

Encyclopedia Britannica and Merriam-Webster say that OpenAI violated the copyright of almost 100,000 articles by using them for LLM training.

原告は、これらの記事は単純な事実の羅列ではなく、専門の編集者や学者が校閲したオリジナル作品であり、独自の表現形式と構造を持っていると強調している。OpenAIの訓練プロセスはこれらのコンテンツを直接複製し、モデルが出力する際に原告の知的財産を直接再現または改変する可能性があり、それによって侵害を構成している。

AI訓練データの著作権争議の背景

この訴訟は孤立した事例ではない。ChatGPTがブームになって以来、AI著作権紛争が相次いで発生している。2023年の早い段階で、『ニューヨーク・タイムズ』（New York Times）はOpenAIとマイクロソフトを提訴し、数百万本のニュース記事をモデル訓練に使用したと訴えた。画像ライブラリのGetty Imagesも、Stability AIのStable Diffusionに対して同様の訴訟を起こしている。さらに、作家協会や音楽著作権者も相次いで戦いに加わっている。

核心的な争点は「フェアユース」（Fair Use）原則にある。米国著作権法では、教育やコメントなどのために保護されたコンテンツを限定的に使用することを許可しているが、AI企業は訓練プロセスが人間が知識を学ぶプロセスに類似した「変形的使用」に該当すると主張している。しかし、原告側は、LLMの訓練は受動的な学習ではなく、大量のデータを直接取り込んでパラメータを最適化するものであり、出力結果は入力ソースに高度に依存していると反論している。

業界データによると、現在の主流LLMであるGPT-4、Llamaなどは、訓練データセットの規模が兆単位のトークンレベルに達し、主にCommon Crawlなどのインターネットクローラーから収集されている。これらの公開データセットは重複排除を謳っているが、依然として著作権のあるコンテンツで溢れている。『ブリタニカ百科事典』は有料購読サービスであり、そのコンテンツは厳格に保護されるべきだが、AIによって「無料」で利用されている。

OpenAIの対応と業界への影響

訴訟に直面して、OpenAIはまだ正式に対応していないが、過去の事例では、同社はデータソースの合法性を強調し、フィルタリングメカニズムの強化を約束する傾向がある。2024年、OpenAIは複数の出版社と和解協定を結び、一部のコンテンツをモデル訓練に使用するためのライセンス料を支払った。これは将来的にAI企業が「ライセンスされたデータ」モデルに移行することを示唆しているかもしれない。

業界にとって、この事例の影響は深遠である。まず、AI企業に訓練データセットの詳細を公開することを強制し、透明性に関する立法を推進する可能性がある。次に、辞書類のコンテンツは高度に構造化されており、勝訴すれば百科事典、辞書などの垂直分野のクリエイターにとっての標準となる。最後に、グローバルな視点から見ると、この事例はEUの「AI法」や中国の「生成的人工知能サービス管理暫定弁法」がデータコンプライアンス要件をさらに厳格化することを刺激する可能性がある。

編集者注：AI の「知識の貪食」には明確な境界線が必要

AI技術ニュース編集者として、この訴訟はコンテンツエコシステムとAIエコシステムの正面衝突を示していると考える。AIの強みはデータに由来するが、データは空中楼閣ではなく、無数のクリエイターの血と汗の結晶である。OpenAIなどの巨大企業は、ウィキペディアとの協力やデータ補償基金の設立など、ライセンスメカニズムを積極的に構築すべきであり、そうすることで持続可能な共栄が実現できる。そうでなければ、相次ぐ訴訟はイノベーションのペースを妨げ、最終的にエコシステム全体を傷つけることになる。

将来を展望すると、ブロックチェーントレーサビリティ技術や合成データ生成が解決策となる可能性がある。しかし現在、イノベーションと権利保護のバランスを取ることは、AI業界にとって緊急の課題となっている。

本文はTechCrunchより編集、著者：Amanda Silberling、日付：2026-03-17。

辞書大手がOpenAIを提訴：約10万本の記事の著作権侵害を主張

訴訟の核心：約10万本の記事がAI訓練に使用

AI訓練データの著作権争議の背景

OpenAIの対応と業界への影響

編集者注：AI の「知識の貪食」には明確な境界線が必要

関連記事