ciot OpenAI creează un nou program AI pentru a crea muzică bazată pe genuri - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

OpenAI creează un nou program AI pentru a crea muzică bazată pe genuri

mm
Actualizat on

Organizația independentă de cercetare OpenAI a lansat recent o nouă formă de IA generativă denumită Tonomat, numit ca atare datorita capacitatii sale de a genera muzica. Jukebox AI este capabil să genereze sunete pe baza atributelor precum instrumentația și chiar versurile, iar echipa de cercetare OpenAI a creat AI-ul antrenându-l pe clipuri audio comprimate și diferite fragmente de versuri.

Ca TechCrunch raportate, cercetătorii OpenAI au antrenat modelul folosind clipuri audio brute, oferind modelului capacitatea de a produce audio. Acest lucru este în contrast cu abordările folosite pentru a crea alte aplicații de generare de muzică, care se bazează adesea pe „muzică simbolică” (cum ar fi muzica MIDI), care este informații despre note și înălțimi, dar nu audio real. Echipa de cercetători a folosit rețele neuronale convoluționale pentru a antrena modelul, comprimând sunetul și codificându-l într-un format pe care l-ar putea interpreta rețeaua neuronală. Ulterior, a fost folosit un transformator pentru a genera audio comprimat, care a fost supraeșantionat pentru a converti datele într-un format audio.

Când a creat Jukebox, OpenAI a trebuit să creeze o metodă de a face față naturii complexe și dense a audio. Cercetătorii s-au ocupat de natura continuă a sunetului împărțindu-l în secțiuni mai discrete, mai digerabile, împărțind melodiile în biți care au o lungime de 1/128 de secundă. Scopul a fost de a crea un model AI capabil să descompună melodiile în bucăți suficient de mari încât problema să nu devină insolubilă, dar suficient de mică și precisă încât modelele să poată învăța modelul unui cântec și să reconstruiască acel model.

Tehnica utilizată de OpenAI împărtășește unele aspecte comune cu o IA mai veche de generație muzicală produsă de companie, numită MuseNet. MuseNet a fost instruit pe fișiere MIDI și a fost capabil să genereze muzică într-o varietate de stiluri, deși se concentra pe melodia generală a unui cântec și nu putea produce versuri. În schimb, Jukebox este capabil să scrie propriile versuri pentru a însoți muzica. Versurile sunt „co-scrise” de către cercetătorii OpenAI, ghidând modelul spre crearea de versuri în anumite stiluri. Sistemul Jukebox a fost antrenat pe versuri extrase din LyricWiki, datele de antrenament constând din text și metadate pe 1.2 milioane de melodii.

Când vine vorba de versurile modelului, cercetătorii au încercat mai întâi să folosească o euristică simplă care extinde versurile până la aproximativ durata unui cântec, analizând textul care corespundea cu o anumită bucată/segment al cântecului. Această abordare simplă a funcționat bine în general, deși cercetătorii au descoperit că atunci când versurile erau deosebit de rapide, s-au stricat. Pentru a rezolva această problemă, vocea a fost extrasă din cântec și aliniată cu textul versurilor pentru a obține aliniamente la nivel de cuvânt pentru versuri. Ulterior, a fost folosit un strat de codificare pentru versuri împreună cu un strat de atenție care a mapat secțiuni ale muzicii la versuri folosind perechi cheie-valoare. Rezultatul a fost că versurile și vocea au avut o potrivire destul de precisă.

Autorii hârtia De asemenea, rețineți că există câteva limitări pe care le are Jukebox și că lucrările viitoare vor avea ca scop îmbunătățirea capacității AI. După cum scriu autorii într-un post pe blog:

„În timp ce Jukebox reprezintă un pas înainte în ceea ce privește calitatea muzicală, coerența, durata eșantionului audio și capacitatea de a condiționa artistul, genul și versurile, există un decalaj semnificativ între aceste generații și muzica creată de om. De exemplu, în timp ce melodiile generate arată coerență muzicală locală, urmează modele tradiționale de acorduri și chiar pot prezenta solo-uri impresionante, nu auzim structuri muzicale mai mari familiare, cum ar fi refrenuri care se repetă.”

În acest moment, modelul este capabil să producă o melodie care este recunoscută în stilul unui anumit gen sau chiar al unui anumit artist. De exemplu, poate produce melodii în stilul lui Elvis Presley, Katy Perry sau Rage Against the Machine. Deși melodiile sunt recunoscute într-un gen sau tematice în jurul stilului unui cântăreț, ele sunt, de asemenea, destul de dure, adesea sună ca o parodie sau o versiune proastă a unui cântec. Cu toate acestea, realizarea tehnică este impresionantă. Cercetătorii responsabili cu crearea sistemului de generare a AI au ales să lucreze la un program capabil să genereze muzică în mod special pentru că sarcina a fost dificilă, iar cercetătorii intenționează să continue să-și perfecționeze tehnicile. Puteți asculta câteva dintre melodii aici.