ciot AI generativ text-to-muzică: Stability Audio, Google MusicLM și altele - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

AI generativ text-to-muzică: Stability Audio, Google MusicLM și multe altele

mm
Actualizat on

Muzica, o formă de artă care rezonează cu sufletul uman, a fost un însoțitor constant al tuturor. Crearea muzicii folosind inteligența artificială a început cu câteva decenii în urmă. Inițial, încercările au fost simple și intuitive, algoritmii de bază creând melodii monotone. Cu toate acestea, pe măsură ce tehnologia a avansat, la fel au crescut și complexitatea și capacitățile generatoarelor de muzică AI, deschizând calea pentru învățarea profundă și procesarea limbajului natural (NLP) pentru a juca roluri esențiale în această tehnologie.

Astăzi, platforme precum Spotify folosesc inteligența artificială pentru a ajusta experiența de ascultare a utilizatorilor lor. Acești algoritmi de învățare profundă disecă preferințele individuale pe baza diferitelor elemente muzicale, cum ar fi tempo și starea de spirit, pentru a crea sugestii de cântece personalizate. Ei analizează chiar și modele de ascultare mai ample și caută pe internet discuții legate de cântece pentru a construi profiluri detaliate ale cântecelor.

Originea AI în muzică: o călătorie de la compoziția algoritmică la modelarea generativă

În primele etape ale mixării AI în lumea muzicii, între anii 1950 și 1970, accentul a fost în primul rând pe compoziția algoritmică. Aceasta a fost o metodă în care computerele foloseau un set definit de reguli pentru a crea muzică. Prima creație notabilă din această perioadă a fost Suită Iliac pentru cvartet de coarde în 1957. A folosit algoritmul Monte Carlo, un proces care implică numere aleatorii pentru a dicta înălțimea și ritmul în limitele teoriei muzicale tradiționale și ale probabilităților statistice.

Imagine generată de autor folosind Midjourney

Imagine generată de autor folosind Midjourney

În acest timp, un alt pionier, Iannis Xenakis, a folosit procese stocastice, un concept care implică distribuții aleatorii de probabilități, pentru a crea muzică. A folosit computere și FORTRAN limbaj pentru a conecta mai multe funcții de probabilitate, creând un model în care diferite reprezentări grafice corespundeau spațiilor sonore diverse.

Complexitatea traducerii textului în muzică

Muzica este stocată într-un format bogat și multidimensional de date care cuprinde elemente precum melodia, armonia, ritmul și tempo-ul, ceea ce face ca sarcina de a traduce textul în muzică să fie extrem de complexă. Un cântec standard este reprezentat de aproape un milion de numere într-un computer, o cifră semnificativ mai mare decât alte formate de date precum imaginea, textul etc.

Domeniul generării audio este martor la abordări inovatoare pentru a depăși provocările creării de sunet realist. O metodă implică generarea unei spectrograme și apoi convertirea acesteia înapoi în audio.

O altă strategie folosește reprezentarea simbolică a muzicii, cum ar fi partitura, care poate fi interpretată și interpretată de muzicieni. Această metodă a fost digitalizată cu succes, cu instrumente precum Magenta Generator de ansamblu de cameră crearea de muzică în format MIDI, un protocol care facilitează comunicarea între computere și instrumente muzicale.

Deși aceste abordări au avansat domeniul, ele vin cu propriul set de limitări, subliniind natura complexă a generării audio.

TransformatorModele autoregresive bazate pe U-Net modele de difuzie, sunt în fruntea tehnologiei, producând rezultate de ultimă generație (SOTA) în generarea de sunet, text, muzică și multe altele. Seria GPT a OpenAI și aproape toate celelalte LLM-uri în prezent sunt alimentate de transformatoare care utilizează fie codificator, decodor sau ambele arhitecturi. Pe partea de artă/imagine, MidJourney, Stability AI și DALL-E 2 folosesc toate cadrele de difuzie. Aceste două tehnologii de bază au fost cheie în obținerea rezultatelor SOTA și în sectorul audio. În acest articol, vom aprofunda în MusicLM și Stable Audio de la Google, care stau ca o dovadă a capabilităților remarcabile ale acestor tehnologii.

MusicLM de la Google

MusicLM de la Google a fost lansat în luna mai a acestui an. MusicLM poate genera piese muzicale de înaltă fidelitate, care rezonează cu sentimentul exact descris în text. Folosind modelarea ierarhică secvență-la-secvență, MusicLM are capacitatea de a transforma descrierile de text în muzică care rezonează la 24 kHz pe durate extinse.

Modelul operează la un nivel multidimensional, nu doar aderând la intrările textuale, ci și demonstrând capacitatea de a fi condiționat de melodii. Aceasta înseamnă că poate lua o melodie fredonată sau fluierată și o poate transforma în conformitate cu stilul delimitat într-o legendă de text.

Perspective tehnice

MusicLM folosește principiile AudioLM, un cadru introdus în 2022 pentru generarea audio. AudioLM sintetizează sunetul ca sarcină de modelare a limbajului într-un spațiu de reprezentare discret, utilizând o ierarhie de unități discrete audio grosiere până la fine, cunoscute și sub numele de jetoane. Această abordare asigură fidelitate ridicată și coerență pe termen lung pe durate substanțiale.

Pentru a facilita procesul de generare, MusicLM extinde capacitățile AudioLM pentru a include condiționarea textului, o tehnică care aliniază sunetul generat cu nuanțele textului introdus. Acest lucru se realizează printr-un spațiu de încorporare partajat, creat folosind MuLan, un model comun de muzică-text antrenat pentru a proiecta muzica și descrierile sale de text corespunzătoare aproape unele de altele într-un spațiu de încorporare. Această strategie elimină în mod eficient nevoia de subtitrări în timpul antrenamentului, permițând modelului să fie antrenat pe corpuri masive doar audio.

Modelul MusicLM folosește și SoundStream ca tokenizer audio, care poate reconstrui muzica de 24 kHz la 6 kbps cu o fidelitate impresionantă, valorificând cuantificare vectorială reziduală (RVQ) pentru compresie audio eficientă și de înaltă calitate.

O ilustrare a procesului independent de preinstruire pentru modelele de bază ale MusicLM: SoundStream, w2v-BERT și MuLan,

O ilustrare a procesului de preformare al MusicLM: SoundStream, w2v-BERT și Mulan | Sursa imaginii: aici

Mai mult, MusicLM își extinde capacitățile permițând condiționarea melodiei. Această abordare asigură că chiar și o simplă melodie fredonată poate pune bazele unei experiențe auditive magnifice, reglate fin la descrierile exacte ale stilului textual.

Dezvoltatorii MusicLM au, de asemenea, MusicCaps cu sursă deschisă, un set de date care conține 5.5 mii de perechi muzică-text, fiecare însoțită de descrieri de text bogat realizate de experți umani. Îl poți verifica aici: MusicCaps pe Hugging Face.

Sunteți gata să creați coloane sonore AI cu MusicLM de la Google? Iată cum să începeți:

  1. Vizitați site-ul web oficial MusicLM și faceți clic pe „Începeți”.
  2. Alăturați-vă listei de așteptare selectând „Înregistrați-vă interesul”.
  3. Conectați-vă folosind contul dvs. Google.
  4. Odată acordat accesul, faceți clic pe „Încercați acum” pentru a începe.

Mai jos sunt câteva exemple de instrucțiuni pe care le-am experimentat:

„Cântec meditativ, liniștitor și liniștitor, cu flaut și chitară. Muzica este lentă, cu accent pe crearea unui sentiment de pace și liniște.”

„jazz cu saxofon”

În comparație cu modelele SOTA anterioare, cum ar fi Riffusion și Mubert, într-o evaluare calitativă, MusicLM a fost preferată mai mult decât altele, participanții evaluând favorabil compatibilitatea subtitrărilor de text cu clipuri audio de 10 secunde.

Comparația performanțelor MusicLM

MusicLM Performance, Sursa imagine: aici

Stabilitate audio

Stability AI a introdus săptămâna trecută „Audio stabil” o arhitectură de model de difuzie latentă condiționată de metadate text, alături de durata fișierului audio și ora de începere. Această abordare, precum MusicLM de la Google, are control asupra conținutului și duratei audio generat, permițând crearea de clipuri audio cu lungimi specificate până la dimensiunea ferestrei de antrenament.

Perspective tehnice

Stable Audio cuprinde mai multe componente, inclusiv un Autoencoder variațional (VAE) și un model de difuzie condiționată bazat pe U-Net, care lucrează împreună cu un codificator de text.

O ilustrație care prezintă integrarea unui autoencoder variațional (VAE), a unui codificator de text și a unui model de difuzie condiționată bazat pe U-Net

Arhitectură audio stabilă, sursă imagine: aici

Emiratele Arabe Unite facilitează generarea și antrenamentul mai rapid prin comprimarea audio stereo într-o codificare latentă cu pierderi, comprimată cu date, rezistentă la zgomot și inversabilă, evitând nevoia de a lucra cu mostre audio brute.

Codificatorul de text, derivat din a CLAP model, joacă un rol esențial în înțelegerea relațiilor complicate dintre cuvinte și sunete, oferind o reprezentare informativă a textului de intrare tokenizat. Acest lucru se realizează prin utilizarea caracteristicilor de text din penultimul strat al codificatorului de text CLAP, care sunt apoi integrate în difuzia U-Net prin straturi de atenție încrucișată.

Un aspect important este încorporarea înglobărilor de sincronizare, care sunt calculate pe baza a două proprietăți: secunda de început a fragmentului audio și durata totală a fișierului audio original. Aceste valori, traduse în înglobări discrete pe secundă, sunt combinate cu indicatoarele prompte și introduse în straturile de atenție încrucișată ale U-Net, dând putere utilizatorilor să dicteze lungimea totală a sunetului de ieșire.

Modelul Stable Audio a fost antrenat utilizând un set extins de date de peste 800,000 de fișiere audio, prin colaborare cu furnizorul de muzică de stoc, AudioSparx.

Reclame audio stabile

Reclame audio stabile

Stable Audio oferă o versiune gratuită, care permite 20 de generații de melodii de până la 20 de secunde pe lună și un plan Pro de 12 USD/lună, care permite 500 de generații de melodii de până la 90 de secunde.

Mai jos este un clip audio pe care l-am creat folosind un sunet stabil.

Imagine generată de autor folosind Midjourney

Imagine generată de autor folosind Midjourney

„Cinematograf, coloană sonoră Ploaie blândă, ambient, liniștitor, lătrat de câini îndepărtat, foșnet calmant al frunzelor, vânt subtil, 40 BPM”

Aplicațiile unor astfel de piese audio fin lucrate sunt nesfârșite. Realizatorii de film pot folosi această tehnologie pentru a crea peisaje sonore bogate și captivante. În sectorul comercial, agenții de publicitate pot utiliza aceste piese audio personalizate. Mai mult decât atât, acest instrument deschide căi creatorilor și artiștilor individuali pentru a experimenta și a inova, oferind o pânză cu un potențial nelimitat pentru a crea piese sonore care povestesc, evocă emoții și creează atmosfere cu o profunzime care înainte era greu de realizat fără un buget substanțial. sau expertiza tehnica.

Sfaturi sugestive

Creați sunetul perfect folosind instrucțiuni text. Iată un ghid rapid pentru a începe:

  1. Fii detaliat: Specificați genuri, dispoziții și instrumente. De exemplu: Cinematic, Vestul Sălbatic, Percuție, Tens, Atmosferic
  2. Starea dispoziției: Combinați termeni muzicali și emoționali pentru a transmite starea de spirit dorită.
  3. Alegerea instrumentului: Îmbunătățiți numele instrumentelor cu adjective, cum ar fi „Chitară reverberată” sau „Cor puternic”.
  4. BPM: Aliniați tempo-ul cu genul pentru o ieșire armonioasă, cum ar fi „170 BPM” pentru o piesă Drum and Bass.

Note de închidere

Imagine generată de autor folosind Midjourney

Imagine generată de autor folosind Midjourney

În acest articol, ne-am aprofundat în muzica/audioul generat de AI, de la compoziții algoritmice la cadrele sofisticate de AI generative de astăzi, cum ar fi MusicLM și Stability Audio de la Google. Aceste tehnologii, valorificând modelele de învățare profundă și de compresie SOTA, nu numai că îmbunătățesc generarea de muzică, ci și perfecționează experiențele ascultătorilor.

Cu toate acestea, este un domeniu în evoluție constantă, cu obstacole precum menținerea coerenței pe termen lung și dezbaterea în curs privind autenticitatea muzicii create de IA, provocând pionierii în acest domeniu. Cu doar o săptămână în urmă, zgomotul era vorba despre o melodie creată de inteligență artificială care canalizează stilurile Drake și The Weeknd, care inițial luase foc online la începutul acestui an. Cu toate acestea, sa confruntat cu eliminarea de pe lista de nominalizări la Grammy, arătând dezbaterea în curs despre legitimitatea muzicii generate de AI în industrie (sursă). Pe măsură ce AI continuă să creeze o punte între muzică și ascultători, cu siguranță promovează un ecosistem în care tehnologia coexistă cu arta, încurajând inovația, respectând în același timp tradiția.

Mi-am petrecut ultimii cinci ani scufundându-mă în lumea fascinantă a învățării automate și a învățării profunde. Pasiunea și expertiza mea m-au determinat să contribui la peste 50 de proiecte diverse de inginerie software, cu un accent deosebit pe AI/ML. Curiozitatea mea continuă m-a atras și către Procesarea limbajului natural, un domeniu pe care sunt dornic să îl explorez în continuare.