Google Geminiアプリに音楽生成機能追加、テキスト・画像・動画入力に対応

2026年2月19日 602 約6分 TechCrunch

谷歌Gemini AI音乐生成多模态AI 音乐AI 科技更新

Google Geminiアプリに音楽生成機能追加、テキスト・画像・動画入力に対応

Googleは先日、同社の旗艦AIアプリケーションGeminiに音楽生成機能を追加すると発表した。このアップデートにより、ユーザーはテキスト、画像、または動画を入力参照として、高品質なオリジナル音楽を生成できるようになる。この革新はGeminiのマルチモーダル能力を拡張するだけでなく、AI音楽創作をより身近で直感的な時代へと推し進めている。

Gemini音楽生成機能のハイライト

TechCrunchの報道によると、ユーザーはGeminiアプリで「未来的な都市景観を背景にしたアップビートな電子ダンスミュージック」といったシンプルなテキストプロンプトを入力したり、夕日のビーチ写真やダンス動画をアップロードしたりするだけで、AIが瞬時に対応する音楽トラックを生成する。生成される音楽はポップ、クラシック、電子音楽、民族音楽など多様なスタイルに対応し、長さは数分に及ぶ。ユーザーは反復的なプロンプトでメロディー、リズム、楽器を微調整し、個人の創造性に合った出力を確保できる。

Users will be able to use text, images, and videos as a reference to generate music.

この機能はGoogle内部のMusicLMとMusicFXモデルをさらに最適化し、Gemini 2.0のマルチモーダルアーキテクチャと組み合わせることで、視覚／テキストから音声へのシームレスな変換を実現している。テキストのみに依存する従来の音楽生成ツールとは異なり、Geminiの革新は視覚入力の深い解析にある。例えば、動画から動作のリズムを抽出したり、画像から感情的な雰囲気を推測したりすることができる。

AI音楽生成分野の業界背景

AI音楽生成はGoogleが初めてではない。2023年初頭、MetaはAudioCraftを発表し、Stability AIのStable Audioがそれに続いた。スタートアップのSunoとUdioは使いやすいインターフェースで急速に人気を博した。これらのツールはすでに数億曲のAI楽曲を生成し、Spotifyのランキングに登場することもある。しかし、ほとんどのツールはテキストプロンプトに限定されており、視覚入力は依然として最先端技術である。

Googleの参入は、マルチモーダルAIにおける同社の優位性に由来する。Geminiシリーズは発表以来、画像生成（Imagen 3）と動画理解をサポートしており、今回の音楽拡張は「万能AI」としての位置づけを完成させる。同時に、2025年以降、EU AI法による生成コンテンツのラベリング要件など、業界の規制が厳しくなっている中、Googleはすでに透かし機能を内蔵し、音楽出力のトレーサビリティを確保している。

データによると、2025年の世界AI音楽市場規模は50億ドルを超え、2028年には200億ドルに達すると予測されている。Googleのこの動きは消費者市場を狙い、Sunoなどの専用ツールに挑戦し、YouTube ShortsやGoogle Photosとの深い統合により、ユーザーはワンクリックで短編動画にBGMを付けることができる。

技術実装とユーザーエクスペリエンスの向上

技術的観点から、Geminiの音楽生成は拡散モデル（Diffusion Models）とTransformerアーキテクチャの融合を採用している。まず、入力されたマルチモーダルデータはCLIP風のエンコーダーで統一埋め込み空間に変換される。次に、音楽デコーダーが波形を生成し、高忠実度44.1kHz出力をサポートする。テストによると、生成速度はわずか10-30秒で、競合他社を大きく上回る。

ユーザーインターフェースはシンプルで、Geminiモバイル版またはウェブ版で「音楽生成」モードを選択し、入力をアップロード／説明すると、波形プレビューと再生ボタンが表示される。上級ユーザーはMIDIファイルをエクスポートしてさらに編集できる。Googleはプライバシーを重視し、すべての生成処理をローカルで行い、クラウドにアップロードして訓練することはない。

編集者注：AI音楽はクリエイティブ産業をどう再構築するか？

AIテクノロジーニュース編集者として、私はGeminiの音楽機能が単なる技術の見せびらかしではなく、創造性の民主化のマイルストーンだと考えている。これまで音楽創作は高い参入障壁があり、専門的な設備とスキルが必要だったが、今や誰もが専属のBGMを「演出」できるようになった。これは独立系ミュージシャン、TikTokクリエイター、教育現場に力を与えるが、著作権の懸念も引き起こす——AIの訓練データの多くは人間の作品に由来しており、イノベーションと権利のバランスをどう取るか？

将来を展望すると、Geminiが他のGoogleエコシステム（Android Auto車載音楽生成など）と統合されるにつれ、AIは「個人作曲家」になるかもしれない。しかし、業界は「AI疲れ」に警戒する必要がある：過度に氾濫する同質的な音楽は人間のオリジナル作品の価値を希薄化する可能性がある。Googleは倫理的な指導を強化し、持続可能なエコシステムを推進すべきだ。

全体的に、このアップデートは生成AI競争におけるGoogleのリードを強固なものとし、開発者とユーザーが密接に注目する価値がある。

本記事はTechCrunchより編集、著者Ivan Mehta、日付2026-02-19。

Google Geminiアプリに音楽生成機能追加、テキスト・画像・動画入力に対応

Gemini音楽生成機能のハイライト

AI音楽生成分野の業界背景

技術実装とユーザーエクスペリエンスの向上

編集者注：AI音楽はクリエイティブ産業をどう再構築するか？

関連記事