Umělá inteligence

Text-to-Music Generative AI : Stability Audio, Google’s MusicLM and More

Published September 25, 2023

Updated April 28, 2026

Aayush Mittal Mittal

Hudba, umělecká forma, která rezonuje s lidskou duší, byla naší stálou společnicí. Tvorba hudby pomocí umělé inteligence začala několik desetiletí назад. Zpočátku byly pokusy jednoduché a intuitivní, s základními algoritmy vytvářejícími monotonní melodie. Nicméně, jak se technologie zlepšila, tak se zlepšila i složitost a schopnosti generátorů hudby AI, vytvářející cestu pro hluboké učení a zpracování přirozeného jazyka (NLP) hrát zásadní roli v této technologii.

Dnes platformy jako Spotify využívají AI k jemnému ladění zkušeností svých uživatelů. Tyto algoritmy hlubokého učení rozkládají individuální preference na základě různých hudebních prvků, jako je tempo a nálada, aby vytvořily personalizovaná doporučení písní. Tyto algoritmy dokonce analyzují širší poslechové vzorce a procházejí internet na hledání diskusí o písních, aby vytvořily podrobné profily písní.

Původ AI v hudbě: Cesta od algoritmického složení k generativnímu modelování

V raných fázích míchání AI v hudebním světě, od 50. do 70. let, se zaměřilo především na algoritmické složení. Jednalo se o metodu, kde počítače používaly definovaný soubor pravidel k vytváření hudby. První pozoruhodné vytvoření během tohoto období byla Illiac Suite for String Quartet v roce 1957. Používal Monte Carlo algoritmus, proces zahrnující náhodná čísla, aby určila výšku a rytmus v rámci tradiční hudební teorie a statistických pravděpodobností.

Image generated by the author using Midjourney

Během tohoto období, další průkopník, Iannis Xenakis, využíval stochastické procesy, koncept zahrnující náhodné pravděpodobnostní distribuce, k vytváření hudby. Používal počítače a jazyk FORTRAN k propojení více pravděpodobnostních funkcí, vytvářející vzorec, kde různé grafické reprezentace odpovídaly rozmanitým zvukovým prostorám.

Složitost překladu textu do hudby

Hudba je uložena v bohatém a vícedimenzionálním formátu dat, který zahrnuje prvky, jako je melodie, harmonie, rytmus a tempo, což činí úkol překladu textu do hudby vysoce složitým. Standardní píseň je reprezentována téměř milionem čísel v počítači, číslo podstatně vyšší než jiné formáty dat, jako je obraz, text atd.

Obor generování audia je svědkem inovativních přístupů k překonání výzev vytváření realistického zvuku. Jedna metoda zahrnuje generování spektrogramu a poté jeho převod zpět do audia.

Jiný přístup využívá symbolické reprezentace hudby, jako je notový zápis, který může být interpretován a hrán hudebníky. Tato metoda byla úspěšně digitalizována, s nástroji, jako je Chamber Ensemble Generator od Magenty, vytvářející hudbu ve formátu MIDI, protokolu, který umožňuje komunikaci mezi počítači a hudebními nástroji.

Zatímco tyto přístupy pokročily v oboru, přinášejí své vlastní omezení, zdůrazňující složitou povahu generování audia.

Transformer-based autoregresivní modely a U-Net-based difúzní modely jsou na špici technologie, produkující špičkové výsledky (SOTA) v generování audia, textu, hudby a mnohem více. OpenAI’s GPT série a téměř všechny ostatní LLMs jsou目前 poháněny transforméry, využívajícími buď encoder, decoder, nebo obě architektury. Na straně umění/obrazu, MidJourney, Stability AI a DALL-E 2 všechny využívají difúzní rámce. Tyto dvě základní technologie byly klíčové v dosažení SOTA výsledků v audio sektoru. V tomto článku, budeme se zabývat Google’s MusicLM a Stable Audio, které stojí jako svědectví pozoruhodných schopností těchto technologií.

Google’s MusicLM

Google’s MusicLM byl vydán v květnu tohoto roku. MusicLM může generovat high-fidelity hudební kusy, které rezonují s přesně tím sentimentem, který je popsán v textu. Používá hierarchické sekvencové modelování, MusicLM má schopnost transformovat textové popisy do hudby, která rezonuje na 24 kHz po prodloužené doby.

Model funguje na multi-dimenzionální úrovni, nejen dodržuje textové vstupy, ale také demonstruje schopnost být podmíněna melodiemi. To znamená, že může vzít za humnanou nebo hvízdavou melodii a transformovat ji podle stylu popsáného v textovém popisu.

Technické pohledy

MusicLM využívá principy AudioLM, rámce zavedeného v roce 2022 pro generování audia. AudioLM syntetizuje audio jako úloha modelování jazyka v diskrétním reprezentačním prostoru, využívající hierarchii hrubých až jemných audio diskrétních jednotek, také známých jako tokeny. Tento přístup zajišťuje high-fidelity a dlouhodobou koherenci po podstatných dobách.

Aby usnadnil generovací proces, MusicLM rozšiřuje schopnosti AudioLM, aby zahrnovaly textové podmínky, techniku, která zarovnává vygenerované audio s nuancemi vstupního textu. To je dosaženo prostřednictvím sdíleného vloženého prostoru vytvořeného pomocí MuLan, společného hudebního-textového modelu, který byl vyškoleno projekovat hudbu a její odpovídající textové popisy blízko sebe v vloženém prostoru. Tato strategie efektivně eliminuje potřebu popisků během školení, umožňující modelu být vyškoleno na masivních audio-only korpusech.

MusicLM model také používá SoundStream jako svůj audio tokenizér, který může rekonstruovat 24 kHz hudbu na 6 kbps s působivou fidelitou, využívající reziduální vektorovou kvantizaci (RVQ) pro efektivní a high-quality audio kompresi.

Ilustrace nezávislého předškolního procesu pro základní modely MusicLM: SoundStream, w2v-BERT a MuLan,

Ilustrace předškolního procesu MusicLM: SoundStream, w2v-BERT a Mulan | Image zdroj: zde

Navíc, MusicLM rozšiřuje své schopnosti, umožňující melodičtější podmínky. Tento přístup zajišťuje, že i jednoduchá humnaná melodie může položit základy pro velkolepý audio zážitek, jemně laděný podle přesně toho textového stylu popisu.

Vývojáři MusicLM také otevřeli MusicCaps, dataset s 5,5k hudebních-textových párů, každý doprovázený bohatými textovými popisy vytvořenými lidskými odborníky. Můžete si jej prohlédnout zde: MusicCaps na Hugging Face.

Chcete-li vytvořit AI soundtracky s Google’s MusicLM? Zde je, jak začít:

Navštivte oficiální webovou stránku MusicLM a klikněte na “Get Started.”
Připojte se k čekací listině výběrem “Register your interest.”
Přihlaste se pomocí svého Google účtu.
Jakmile budete mít přístup, klikněte na “Try Now” a začněte.

Níže jsou několik příkladů promptů, se kterými jsem experimentoval:

“Meditativní píseň, uklidňující a uklidňující, s flétnami a kytarami. Hudba je pomalá, se zaměřením na vytváření pocitu míru a klidu.”

“jazz se saxofonem”

Když se porovná s předchozími SOTA modely, jako je Riffusion a Mubert v kvalitativní evaluaci, MusicLM byl preferován více než ostatní, s účastníky, kteří favorizovali kompatibilitu textových popisků s 10-vteřinovými audio klipy.

MusicLM Performance, Image zdroj: zde

Stability Audio

Stability AI minulý týden představila “Stable Audio” latentní difúzní modelovou architekturu, podmíněnou textovými metadata a audio souborovými délkami a startovacími časy. Tento přístup, stejně jako Google’s MusicLM, má kontrolu nad obsahem a délkou vygenerovaného audia, umožňující tvorbu audio klipů se specifikovanými délkami až do velikosti trénovacího okna.

Stable Audio

Technické pohledy

Stable Audio se skládá z několika komponent, včetně Variational Autoencoder (VAE) a U-Net-based podmíněného difúzního modelu, pracujícího společně s textovým enkodérem.

Ilustrace integrující variational autoencoder (VAE), textový enkodér a U-Net-based podmíněný difúzní model

Stable Audio Architektura, Image zdroj: zde

VAE usnadňuje rychlejší generování a trénink, komprimuje stereo audio do dat-komprimovaného, šumu odolného a invertibilního ztrátového latentního kódování, obcházející potřebu pracovat s raw audio vzorky.

Textový enkodér, odvozený z CLAP modelu, hraje zásadní roli v pochopení složitých vztahů mezi slovy a zvuky, nabízející informativní reprezentaci tokenizovaného vstupního textu. To je dosaženo pomocí textových funkcí z předposledního vrstvy CLAP textového enkodéru, které jsou poté integrovány do difúzního U-Net prostřednictvím cross-attention vrstev.

Důležitým aspektem je začlenění časových vložek, které jsou vypočteny na základě dvou vlastností: startovacího sekundu audio chunku a celkové délky původního audio souboru. Tyto hodnoty, přeložené do per-second diskrétních naučených vložek, jsou kombinovány s prompt tokeny a krmeny do U-Net’s cross-attention vrstev, umožňující uživatelům diktovat celkovou délku výstupního audia.

Stable Audio model byl trénován pomocí rozsáhlého datasetu více než 800 000 audio souborů, ve spolupráci se stock music poskytovatelem AudioSparx.

Stable audio komerční

Stable Audio nabízí bezplatnou verzi, umožňující 20 generací až 20-vteřinových stop za měsíc, a $12/měsíc Pro plán, umožňující 500 generací až 90-vteřinových stop.

Níže je audio klip, který jsem vytvořil pomocí Stable Audio.

Image generated by the author using Midjourney

“Cinematic, Soundtrack Gentle Rainfall, Ambient, Soothing, Distant Dogs Barking, Calming Leaf Rustle, Subtle Wind, 40 BPM”

Aplikace takto jemně vyřezaných audio kusů jsou nekonečné. Filmaři mohou využít tuto technologii k vytváření bohatých a imerzivních zvukových prostorů. V komerčním sektoru, inzerenti mohou využít tyto přizpůsobené audio stopy. Navíc, tento nástroj otevírá cesty pro individuální tvůrce a umělce experimentovat a inovovat, nabízející plátno neomezeného potenciálu k vytvoření zvukových kusů, které vyprávějí příběhy, evokují emoce a vytvářejí atmosféry s hloubkou, která byla dříve těžko dosažitelná bez podstatného rozpočtu nebo technických znalostí.

Prompting Tip

Vytvořte dokonalé audio pomocí textových promptů. Zde je rychlý průvodce, jak začít:

Buďte podrobní: Specifikujte žánry, nálady a nástroje. Například: Cinematic, Wild West, Percussion, Tense, Atmospheric
Nastavení nálady: Kombinujte hudební a emocionální termíny, aby vyjádřily požadovanou náladu.
Výběr nástrojů: Zlepšete názvy nástrojů pomocí adjektiv, jako je “Reverberated Guitar” nebo “Powerful Choir”.
BPM: Zarovnejte tempo s žánrem pro harmonický výstup, jako je “170 BPM” pro Drum and Bass stopu.

Závěrečné poznámky

Image generated by the author using Midjourney

V tomto článku, jsme se ponořili do AI-generované hudby/audia, od algoritmických kompozic až po sofistikované generativní AI rámce dneška, jako je Google’s MusicLM a Stability Audio. Tyto technologie, využívající hluboké učení a SOTA kompresní modely, nejen zlepšují generování hudby, ale také jemně ladí posluchačské zkušenosti.

Ještě je to doména v neustálé evoluci, s překážkami, jako je udržování dlouhodobé koherence a pokračující debata o autenticitě AI-vytvořené hudby, které vyzývají průkopníky v tomto oboru. Před několika dny, byl buzz všech o AI-vytvořené písni, která zprostředkovává styly Drake a The Weeknd, která byla původně spuštěna online na začátku tohoto roku. Nicméně, byla odstraněna z Grammy nominace, ukazující pokračující debatu kolem legitimity AI-generované hudby v průmyslu (zdroj). Jak AI pokračuje v mostování mezi hudbou a posluchači, jistě podporuje ekosystém, kde technologie koexistuje s uměním, podporuje inovace, zatímco respektuje tradici.

Aayush Mittal

Já jsem strávil posledních pět let ponořen do fascinujícího světa Machine Learning a Deep Learning. Moje vášeň a odbornost mě vedly k tomu, abych přispěl k více než 50 různým softwarovým inženýrským projektům, se zvláštním zaměřením na AI/ML. Moje pokračující zvědavost mě také táhne směrem k Natural Language Processing, oblasti, kterou jsem ochoten dále prozkoumat.

Unite.AI

Text-to-Music Generative AI : Stability Audio, Google’s MusicLM and More

Původ AI v hudbě: Cesta od algoritmického složení k generativnímu modelování

Složitost překladu textu do hudby

Google’s MusicLM

Technické pohledy

Stability Audio

Technické pohledy

Prompting Tip

Závěrečné poznámky

You may like