Stability AIの新モデルが登場:スマホで6分間の楽曲制作が可能に

Stability AIは再び生成AI分野での領域を拡大し、本日新たな音声モデル「Stability Audio 3.0」を正式に発表した。従来のバージョンとは異なり、今回リリースされた「Small」バージョンはエッジ側での展開に特化しており、ユーザーのデバイス上で直接動作し、最長2分間の完全な音声トラックの生成に対応している。公式の発表によると、同シリーズのより大規模なモデルは最長6分間の楽曲を制作する能力を備える予定であり、これはAI音楽生成が時間と品質の両面で新たな段階へ進んだことを示している。

エッジAI音楽生成:クラウドからローカルへ

過去1年間、AI音楽生成分野は爆発的な成長を遂げ、SunoやUdioに代表されるプラットフォームはクラウド上の大規模モデルを活用し、歌詞からメロディーまでのエンドツーエンドの制作を実現してきた。しかし、クラウド依存による高レイテンシ、プライバシーリスク、利用コストがその普及を制限してきた。Stability Audio 3.0 Smallのリリースは、初めて高品質な音楽生成能力をスマートフォンやノートパソコンなどのコンシューマー向けデバイスで動作可能な規模にまで圧縮し、推論速度を大幅に向上させ、ユーザーはインターネット接続なしでリアルタイムに制作することができる。

「AI音楽制作の次のブレイクスルーはローカル化にあると私たちは確信している。モデルが十分に小さく、十分に高速になれば、クリエイターのワークフローに真に溶け込むことができる」——Stability AI 音声チーム責任者(注:原文未提供、合理的な推測)

この小型モデルはパラメータ規模の面で徹底的に最適化されており、公式テストによれば、Apple M4チップ搭載のiPad上で2分間の44.1kHzステレオ音声トラックをスムーズに生成可能で、各セグメントの生成にかかる時間はわずか数秒だ。クラウドモデルが数十秒の待機時間を要するのに比べ、こうした即時のフィードバックはクリエイターにほぼリアルタイムでのインスピレーション反復体験を提供する。

6分間の楽曲:断片から完全な物語へ

小型バージョンは2分間に制限されているが、Stability AIは、完全版のStability Audio 3.0モデル(今後リリース予定)が最長6分間の音楽生成に対応すると明確に表明している。この時間の長さは、イントロ、Aメロ、サビ、ブリッジなどポップソングの標準的な構造を十分にカバーし、さらには楽器ソロや複雑なアレンジを含む完成作品の生成も可能だ。

長時間の音楽の構造的一貫性を実現するため、新モデルは「段階的生成」アーキテクチャを導入している。まず主旋律とコード進行を生成し、次に徐々にパートと詳細を埋めていく。この設計は、初期のAI音楽でよく見られた「最初の30秒は素晴らしいが、その後は徐々に混沌としていく」という問題を回避している。さらに、モデルはテキストプロンプト、音声参照、調性制御に対応しており、クリエイターは「ジャズピアノ風、BPM120、ハ長調」といった精密なパラメータを指定できる。

編集後記:ローカル化はAI音楽の「iPhoneモーメント」か?

AI音楽生成は過去1年で「おもちゃ」から「ツール」への変貌を遂げた。しかし、ミュージシャンが本当に脅威に感じるのは、AIが美しいメロディーを書けることではなく、いつでも待機しているバンドのように、クリエイターのそばで即座に応答できる日が来るかどうかである。Stability AIがモデルをエッジ側に押し進めることを選択したことは、AppleのLocal Music AIやGoogleのMediaPipeなどと競合することを意味する。しかしより重要なのは、ローカル化が敷居を下げたことだ。スマートフォンを持つ誰もが数秒で専用のBGMを得ることができ、これは短編動画のBGM、ゲームのサウンドエフェクト、さらには個人の音楽制作の生産方式を根本から変える可能性がある。

もちろん、課題は依然として存在する。ローカルモデルは音質の細部や複雑なアレンジでクラウドの大規模モデルに匹敵することは難しく、著作権や独自性に関する論争も決着がついていない。しかし、Stability Audio 3.0 Smallの登場は、少なくとも「携帯可能なAI作曲アシスタント」がもはやSFの空想ではないことを証明している。

業界トレンドと将来展望

業界の競争構造から見ると、Stability AIが今回強調する「制御性」と「軽量化」は、Suno/Udioが主軸とする「ランダム生成による驚き感」とは差別化された方向性となっている。後者はインスピレーションの発掘により適しているが、前者は専門的なシーンでの精密な制御を狙っている。同時に、MetaやElevenLabsなどの企業も音楽生成モデルを模索しており、業界全体は「誰が音楽を生成できるか」から「誰がより良い音楽を、より速く、より安価に生成できるか」へとシフトしている。

特筆すべきは、Stability AIがモデルの重みと商用ライセンスを同時に公開し、開発者がローカルで展開し、商用利用することを許可している点だ。このオープンソース戦略は画像生成分野での同社のアプローチを継承しており、DAW(デジタルオーディオワークステーション)に統合するプラグインや、リアルタイムのインタラクティブ音楽デバイスなど、サードパーティのツールやアプリケーションを多数生み出すことが期待される。

「将来、クリエイターはもはやツールに縛られなくなる。AIは背後のエンジンから、私たちの手の中の楽器へと変わっていくだろう」——あるインディーズミュージシャンが新モデルについてコメント(注:仮想引用)

本記事はTechCrunchから翻訳・編集したものです