Inteligență artificială
Text-to-Music Generative AI : Stability Audio, Google’s MusicLM și mai mult

Muzica, o formă de artă care rezonă cu sufletul uman, a fost un companion constant al nostru. Crearea muzicii utilizând inteligența artificială a început cu mai multe decenii în urmă. Inițial, încercările au fost simple și intuitive, cu algoritmi de bază care creeau melodii monotone. Cu toate acestea, pe măsură ce tehnologia a evoluat, așa au făcut și complexitatea și capacitățile generatorilor de muzică AI, deschizând calea pentru învățarea profundă și procesarea limbajului natural (NLP) să joace roluri cheie în această tehnologie.
Astăzi, platforme precum Spotify utilizează inteligența artificială pentru a rafina experiența de ascultare a utilizatorilor. Acești algoritmi de învățare profundă analizează preferințele individuale pe baza diverselor elemente muzicale, cum ar fi tempo și dispoziție, pentru a crea sugestii personalizate de melodii. Ei analizează, de asemenea, modelele de ascultare mai largi și scanează internetul pentru discuții despre melodii pentru a crea profiluri detaliate de melodii.
Originea inteligenței artificiale în muzică: O călătorie de la compoziția algoritmică la modelarea generativă
În primele etape ale amestecului de inteligență artificială în lumea muzicii, care s-a desfășurat de la anii 1950 la anii 1970, accentul a fost în primul rând pe compoziția algoritmică. Acesta a fost un mod în care computerele utilizau un set definit de reguli pentru a crea muzică. Prima creație notabilă din această perioadă a fost Illiac Suite pentru cvartet de coarde în 1957. Acesta a utilizat algoritmul Monte Carlo, un proces care implică numere aleatoare pentru a dicta pitch-ul și ritmul în limitele teoriei muzicale tradiționale și a probabilităților statistice.
În această perioadă, un alt pionier, Iannis Xenakis, a utilizat procese stohastice, un concept care implică distribuții de probabilitate aleatoare, pentru a crea muzică. A utilizat computere și limbajul FORTRAN pentru a conecta multiple funcții de probabilitate, creând un model în care diferite reprezentări grafice corespundeau unor spații sonore diverse.
Complexitatea traducerii textului în muzică
Muzica este stocată într-un format de date bogat și multi-dimensional care cuprinde elemente precum melodie, armonie, ritm și tempo, făcând sarcina de a traduce textul în muzică extrem de complexă. O melodie standard este reprezentată de aproape un milion de numere într-un computer, o cifră semnificativ mai mare decât alte formate de date, cum ar fi imaginea, textul etc.
Domeniul generației de audio este martorul unor abordări inovatoare pentru a depăși provocările creației de sunete realiste. O metodă implică generarea unui spectrogramă și apoi conversia acestuia înapoi în audio.
O altă strategie utilizează reprezentarea simbolică a muzicii, cum ar fi partiturile, care pot fi interpretate și cântate de muzicieni. Această metodă a fost digitizată cu succes, cu instrumente precum Chamber Ensemble Generator de la Magenta, care creează muzică în formatul MIDI, un protocol care facilitează comunicarea între computere și instrumente muzicale.
În timp ce aceste abordări au avansat domeniul, ele vin cu propriile limitări, subliniind natura complexă a generației de audio.
Transformer-based autoregressive models și U-Net-based diffusion models, se află în fruntea tehnologiei, producând rezultate de ultimă generație (SOTA) în generarea de audio, text, muzică și multe altele. Seria GPT de la OpenAI și aproape toate celelalte LLM-uri sunt alimentate de transformatoare care utilizează arhitecturi de encoder, decoder sau ambele. Pe partea de artă/imagini, MidJourney, Stability AI și DALL-E 2 utilizează toate cadrele de difuziune. Aceste două tehnologii de bază au fost cheia pentru a obține rezultate de ultimă generație în sectorul audio.
În acest articol, vom explora Google’s MusicLM și Stable Audio, care reprezintă o mărturie a capacităților remarcabile ale acestor tehnologii.
Google’s MusicLM
Google’s MusicLM a fost lansat în luna mai a acestui an. MusicLM poate genera piese de muzică de înaltă fidelitate, care rezonă cu sentimentul exact descris în text. Utilizând modelarea secvențială ierarhică, MusicLM are capacitatea de a transforma descrieri de text în muzică care rezonă la 24 kHz pe durate extinse.
Modelul funcționează pe un nivel multi-dimensional, nu numai respectând intrările textuale, dar demonstrând și capacitatea de a fi condiționat pe melodii. Acest lucru înseamnă că poate lua o melodie cântată sau fluierată și o poate transforma în conformitate cu stilul descris într-o legendă de text.
Insights tehnice
MusicLM se bazează pe principiile AudioLM, un cadru introdus în 2022 pentru generația de audio. AudioLM sintetizează audio ca o sarcină de modelare a limbajului într-un spațiu de reprezentare discretă, utilizând o ierarhie de unități audio discrete de la gros la fin, cunoscute și sub numele de token-uri. Acest abordaj asigură fidelitate ridicată și coerență pe termen lung pe durate substanțiale.
Pentru a facilita procesul de generare, MusicLM extinde capacitățile AudioLM pentru a incorpora condiționarea textului, o tehnică care aliniază audio-ul generat cu nuanțele intrării de text. Acest lucru se realizează prin crearea unui spațiu de încorporare comun utilizând MuLan, un model de muzică-text comun instruit pentru a proiecta muzica și descrierile de text corespunzătoare aproape unul de celălalt într-un spațiu de încorporare. Această strategie elimină în mod eficient nevoia de legendă în timpul antrenamentului, permițând modelului să fie antrenat pe corpuri masive de audio numai.
Modelul MusicLM utilizează, de asemenea, SoundStream ca tokenizer de audio, care poate reconstrui muzică de 24 kHz la 6 kbps cu fidelitate impresionantă, utilizând cuantificarea vectorială reziduală (RVQ) pentru compresia audio eficientă și de înaltă calitate.

O ilustrare a procesului de preantrenare a MusicLM: SoundStream, w2v-BERT și Mulan | Imagine sursă: aici
În plus, MusicLM extinde capacitățile sale prin permiterea condiționării melodiei. Acest abordaj asigură că chiar și o melodie simplă cântată poate sta la baza unei experiențe auditive magnifice, finisată în conformitate cu descrierile exacte de stil textual.
Dezvoltatorii MusicLM au lansat, de asemenea, MusicCaps, un set de date care conține 5,5 mii de perechi de muzică-text, fiecare însoțită de descrieri de text bogate create de experți umani. Puteți verifica aici: MusicCaps pe Hugging Face.
Gata să creați coloane sonore AI cu Google’s MusicLM? Iată cum să începeți:
- Accesați site-ul oficial MusicLM și faceți clic pe “Începeți”.
- Alăturați-vă listei de așteptare selectând “Înregistrați-vă interesul”.
- Conectați-vă utilizând contul dvs. Google.
- Odată ce ați fost autorizați, faceți clic pe “Încercați acum” pentru a începe.
Mai jos sunt câteva exemple de prompturi cu care am experimentat:
“Cântec meditativ, liniștitor și calm, cu flaut și chitară. Muzica este lentă, cu accent pe crearea unei senzații de pace și liniște.”
“jazz cu saxofon”
Atunci când a fost comparat cu modelele SOTA anterioare, cum ar fi Riffusion și Mubert, într-o evaluare calitativă, MusicLM a fost preferat mai mult decât altele, cu participanții care au evaluat favorabil compatibilitatea legendelor de text cu clipurile audio de 10 secunde.

Compararea performanței MusicLM, Imagine sursă: aici
Stability Audio
Stability AI a introdus recent “Stable Audio” o arhitectură de model de difuziune latentă condiționată de metadate de text, alături de durata și ora de start a fișierului audio. Acest abordaj, la fel ca și cel al lui Google’s MusicLM, are control asupra conținutului și lungimii audio generate, permițând crearea de clipuri audio cu lungimi specificate până la dimensiunea ferestrei de antrenament.
Insights tehnice
Stable Audio cuprinde mai multe componente, inclusiv un VAE (Variational Autoencoder) și un model de difuziune condiționată bazat pe U-Net, care lucrează împreună cu un encoder de text.

Arhitectura Stable Audio, Imagine sursă: aici
VAE facilitează o generare și antrenament mai rapid, comprimând audio stereo într-o încodare latentă comprimată, rezistentă la zgomot și inversabilă, ocolind necesitatea de a lucra cu mostre de audio brute.
Encoderul de text, derivat dintr-un model CLAP, joacă un rol cheie în înțelegerea relațiilor complexe dintre cuvinte și sunete, oferind o reprezentare informativă a textului tokenizat. Acest lucru se realizează prin utilizarea caracteristicilor de text din stratul penultim al encoderului de text CLAP, care sunt apoi integrate în rețeaua U-Net prin straturi de atenție încrucișate.
Un aspect important este incorporarea încorporărilor de timp, care sunt calculate pe baza a două proprietăți: a doua secundă a fragmentului de audio și durata totală a fișierului audio original. Aceste valori, traduse în încorporări discrete învățate pe secundă, sunt combinate cu token-urile de prompt și alimentate în straturile de atenție încrucișate ale U-Net, permițând utilizatorilor să dicteze lungimea generală a audio-ului de ieșire.
Modelul Stable Audio a fost antrenat utilizând un set de date extins de peste 800.000 de fișiere audio, prin colaborare cu furnizorul de muzică de stoc AudioSparx.
Stable Audio oferă o versiune gratuită, care permite 20 de generări de până la 20 de secunde pe lună, și un plan Pro de 12 dolari pe lună, care permite 500 de generări de până la 90 de secunde.
Mai jos este un clip audio pe care l-am creat utilizând Stable Audio.
“Cinematic, Coloană sonoră Ploaie liniștită, Ambient, Liniștitor, Lătrături de câini la distanță, Foșnet de frunze calm, Vânt subtil, 40 BPM”
Aplicatiile unor astfel de piese audio fin create sunt nelimitate. Cineastii pot utiliza această tehnologie pentru a crea peisaje sonore bogate și imersive. În sectorul comercial, reclamele pot utiliza aceste piese audio personalizate. Mai mult, acest instrument deschide căi pentru creatori individuali și artiști să experimenteze și să inoveze, oferind o paletă de potențial nelimitat pentru a crea piese audio care spun povestiri, evocă emoții și creează atmosfere cu o adâncime care anterior era greu de atins fără un buget substanțial sau expertiză tehnică.
Sfaturi pentru prompturi
Creați audio perfect utilizând prompturi de text. Iată un ghid rapid pentru a începe:
- Fii detaliat: Specificati genuri, stări de spirit și instrumente. De exemplu: Cinematic, Wild West, Percuție, Încordat, Atmospheric
- Setarea stării de spirit: Combinați termeni muzicali și emoționali pentru a transmite starea de spirit dorită.
- Alegerea instrumentului: Îmbunătățiți numele instrumentelor cu adjective, cum ar fi “Chitară reverberată” sau “Cor puternic”.
- BPM: Aliniați tempo-ul cu genul pentru a obține o ieșire armonioasă, cum ar fi “170 BPM” pentru un track de Drum și Bas.
Nota finală
În acest articol, am explorat muzica generată de inteligența artificială, de la compozițiile algoritmică la cadrele generative avansate de astăzi, cum ar fi Google’s MusicLM și Stability Audio. Aceste tehnologii, care utilizează învățarea profundă și modelele de compresie de ultimă generație, nu numai că îmbunătățesc generația de muzică, dar și rafinează experiența de ascultare a utilizatorilor.
Cu toate acestea, este un domeniu în evoluție constantă, cu provocări precum menținerea coerenței pe termen lung și dezbaterea în curs despre autenticitatea muzicii create de inteligența artificială, care provoacă pionierii în acest domeniu. Doar cu o săptămână în urmă, senzația a fost toată despre o melodie creată de inteligența artificială care imita stilurile lui Drake și The Weeknd, care a fost inițial încărcată online la începutul acestui an. Cu toate acestea, a fost eliminată de pe lista de nominalizări Grammy, demonstrând dezbaterea în curs despre legitimitatea muzicii generate de inteligența artificială în industrie (sursă). Pe măsură ce inteligența artificială continuă să elimine barierele dintre muzică și ascultători, este clar că promovează un ecosistem în care tehnologia coexistă cu arta, stimulând inovația și respectând, în același timp, tradiția.

















