Wirestockが2300万ドルの資金調達、AIラボに創造的なマルチモーダルデータを提供

AI訓練データへの渇望が、新たな仲介市場を生み出している。6月14日、サンフランシスコに拠点を置くWirestockは2300万ドルの資金調達を完了したと発表した。クリエイターとAIラボをつなぐこのプラットフォームは、人間の創造性で機械知能に魂を吹き込もうとしている。

クリエイターエコノミーからAIデータ燃料へ

Wirestockは2021年に設立され、当初は写真家や動画クリエイターが作品を各種ストックフォトプラットフォームに配信するのを支援するアグリゲーションツールであった。しかしチームはすぐに、AI業界には高品質で著作権許諾済みのマルチモーダルデータに大きなギャップがあることに気づいた。プラットフォームは迅速に方向転換し、現在では70万人以上のクリエイターを擁し、累計で500万枚以上の写真、100万本以上の動画、数十万点の3Dモデルを、AI訓練専用に提供している。

「私たちはデータアノテーション会社ではありません。創造的で、著作権が保証された原素材を提供しているのです」とWirestock CEOのAlex Chen氏はインタビューで述べた。「AIは現実世界の光と影、構図、物体間の関係を理解する必要があります。私たちのクリエイターは毎日それらを生み出しているのです」

今回のラウンドはIndex Venturesがリード投資家を務め、既存投資家のSequoia Capitalも追加出資した。資金は主に3つの方面に使用される:クリエイター向けインセンティブメカニズムの拡張、自動化されたマルチモーダルデータ品質検査システムの構築、そして自動運転や医療画像などの業界顧客との連携拡大である。

なぜマルチモーダルデータはますます高価になるのか?

GPT-4oやGeminiなどのネイティブマルチモーダルモデルの普及に伴い、AIの画像、動画、3Dコンテンツへの依存度は急激に高まっている。OpenAI、Google、Metaなどの企業による訓練データ調達への年間支出は、すでに数億ドルを超えている。これまでこれらの企業は主に公開ウェブのクローラーデータに依存してきたが、著作権訴訟リスクとデータ品質の問題により、よりクリーンで管理可能なデータソースを探さざるを得なくなった。

Wirestockはまさにこの空白を埋めている。プラットフォームはブロックチェーン技術に基づき、各画像の著作権帰属と許諾範囲を記録しており、AI企業は必要に応じて異なる解像度・スタイルのデータパックを購入でき、完全なコンプライアンスを確保できる。同社の開示によれば、年次経常収益(ARR)はすでに5000万ドルを突破している。

しかし業界に論争がないわけではない。一部のクリエイターは、自分の作品が人間の創造性を代替しうるモデルの訓練に使われることを懸念している。Wirestockは「デュアルライセンス」モデルを採用しており、クリエイターは従来の商業利用のみを許諾するか、追加でAI訓練用途も許諾するかを選択できる。後者の報酬は通常3〜5倍高い。現在60%以上のクリエイターがAI訓練許諾オプションを選択している。

編集者注:データ市場の階層化が始まっている

Wirestockの台頭は、AIデータ市場が新たな段階に入ったことを示している——「量」の競争から「質」の競争へと移行しているのだ。第一波のAI企業はCommon Crawlなどの低品質データに依存し、第二波はRedditやWikipediaなどの高品質テキストを使い始め、そして第三波のマルチモーダルモデルは感情や美意識を備えた創造的なコンテンツを必要としている。Wirestockのようなプラットフォームは、実質的にクリエイターとAI企業の間に「クリエイティブ供給基地」を構築しているのだ。

ただし注意すべきは、このような手法がデジタル経済における価値分配を再構築する可能性があることだ。1枚の写真が数百億ドル規模のモデルの訓練に使われるとき、クリエイターはどれだけの対価を得るべきか?現在、業界には統一基準が存在しない。Wirestockは15%の手数料を取り、残りはクリエイターに帰属する仕組みで、一見公平に見えるが、モデルが商業化された後の巨額の利益と比較すると、この分配は依然としてわずかに見える可能性がある。

さらに、データの多様性の問題も依然として存在する。70万人のクリエイターは数としては相当だが、依然として欧米と東南アジアのユーザーが主体であり、アフリカや南アジアなどの地域の代表性は不足しており、モデルにバイアスを生じさせる可能性がある。

今後の展望

Wirestockは新たな資金を活用して「データマーケット」製品を開発する計画である。これによりAIラボはApp Storeのように、「夕日のビーチ」「工業現場」「手術室の動線」など、異なるテーマのデータストリームを閲覧・購読できるようになる。同時に同社はAI支援アノテーションを実験中で、後続のデータクリーニングコストの削減を目指している。

生成AIがテキスト対話から動画生成(Soraなど)、3Dシーン構築(NeRFなど)へと拡大するにつれ、マルチモーダル素材への需要はますます高まるだろう。Wirestockがマルチモーダル時代のShutterstockになれるかどうかは、時間が答えを出すだろう。

本記事はTechCrunchから翻訳・編集したものである。