stubbur OpenAI býr til nýtt gervigreindarforrit til að búa til tónlist byggða á tegundum - Unite.AI
Tengja við okkur

Artificial Intelligence

OpenAI býr til nýtt gervigreindarforrit til að búa til tónlist byggða á tegundum

mm
Uppfært on

Óháðu rannsóknarstofnunin OpenAI hefur nýlega gefið út nýtt form af generative AI sem er kallaður Glymskratti, nefnd sem slík vegna getu þess til að búa til tónlist. Jukebox AI er fær um að búa til hljóð byggð á eiginleikum eins og tækjabúnaði og jafnvel textum, og OpenAI rannsóknarteymið bjó til AI með því að þjálfa það á þjöppuðum hljóðbútum og ýmsum textabrotum.

Sem TechCrunch tilkynnt, OpenAI vísindamenn þjálfuðu líkanið með því að nota hrá hljóðinnskot, sem gaf líkaninu getu til að framleiða hljóð. Þetta er í mótsögn við aðferðirnar sem notaðar eru til að búa til önnur forrit fyrir tónlistarframleiðslu, sem oft treysta á „táknræna tónlist“ (eins og MIDI tónlist) sem er upplýsingar um nótur og tónhæð en ekkert raunverulegt hljóð. Rannsakendateymið notaði snúninga tauganet til að þjálfa líkanið, þjappa hljóðinu og kóða það í snið sem tauganetið gæti túlkað. Síðan var spennir notaður til að búa til þjappað hljóð, sem var tekið upp til að breyta gögnunum í hljóðform.

Þegar Jukebox var búið til þurfti OpenAI að búa til aðferð til að takast á við flókið, þétt eðli hljóðs. Rannsakendur tókust á við samfellda eðli hljóðs með því að skipta því upp í stakari, meltanlegri hluta, skipta lögum upp í bita sem eru 1/128 úr sekúndu að lengd. Markmiðið var að búa til gervigreind líkan sem er fær um að brjóta lög niður í nógu stóra bita til að vandamálið verði ekki óleysanlegt, en samt nógu lítið og nákvæmt til að líkönin geti lært mynstur lags og endurbyggt það mynstur.

Tæknin sem OpenAI notar deilir nokkrum eiginleikum með eldri tónlistarkynslóð gervigreind sem fyrirtækið framleiddi, sem kallast MuseNet. MuseNet var þjálfað í MIDI skrám og var fær um að búa til tónlist í ýmsum stílum, þó að það einbeitti sér að heildarlagi lags og gæti ekki framleitt texta. Aftur á móti er Jukebox fær um að skrifa sína eigin texta til að fylgja tónlistinni. Textarnir eru „samskrifaðir“ af OpenAI rannsakendum, sem leiðbeina líkaninu að því að búa til texta í ákveðnum stílum. Jukebox kerfið var þjálfað á texta sem var skrafinn frá LyricWiki, þar sem þjálfunargögnin samanstóð af texta og lýsigögnum um 1.2 milljónir laga.

Þegar kemur að texta líkansins reyndu rannsakendur fyrst að nota einfaldan heuristic sem teygði texta út í nokkurn veginn lengd lags, greina textann sem samsvaraði tilteknum hluta/hluta lagsins. Þessi einfalda nálgun virkaði almennt vel, þó að rannsakendur hafi komist að því að þegar textarnir voru sérstaklega hraðir brotnaði hann niður. Til að takast á við þetta vandamál var söngur dreginn út úr laginu og lagður saman við texta textans til að fá samsetningu á orðstigi fyrir textann. Síðan var kóðunarlag notað fyrir textana ásamt athyglislagi sem kortlagði hluta tónlistarinnar við texta með því að nota lykilgildapör. Niðurstaðan var sú að textar og söngur áttu nokkuð nákvæma samsvörun.

Höfundarnir pappírinn Athugaðu einnig að það eru nokkrar takmarkanir sem Jukebox hefur og að framtíðarvinna mun miða að því að bæta getu gervigreindarinnar. Eins og höfundar skrifa á blogg:

„Þó að Jukebox tákni framfaraskref í tónlistargæði, samhengi, lengd hljóðsýnis og getu til að skilyrða eftir listamanni, tegund og texta, þá er verulegt bil á milli þessara kynslóða og manngerðrar tónlistar. Til dæmis, á meðan lögin sem myndast sýna staðbundið tónlistarsamhengi, fylgja hefðbundnu hljómamynstri og geta jafnvel verið með áhrifamiklum sólóum, heyrum við ekki kunnugleg stærri tónlistarbygging eins og kóra sem endurtaka sig.“

Núna er líkanið fær um að framleiða lag sem er auðþekkjanlega í stíl ákveðinnar tegundar eða jafnvel ákveðins listamanns. Til dæmis getur það framleitt lög í stíl við Elvis Presley, Katy Perry eða Rage Against the Machine. Þótt lögin séu auðþekkjanleg innan tegundar eða þema í kringum stíl söngvara, þá eru þau líka frekar gróf, hljóma oft eins og skopstæling eða léleg coverútgáfa af lagi. Engu að síður er tæknilegur árangur glæsilegur. Rannsakendurnir sem bera ábyrgð á því að búa til gervigreindarkerfið völdu að vinna að forriti sem getur búið til tónlist sérstaklega vegna þess að verkefnið var erfitt og rannsakendurnir ætla að halda áfram að betrumbæta tækni sína. Hægt er að hlusta á sum lögin hér.

Bloggari og forritari með sérsvið í vél Learning og Deep Learning efni. Daniel vonast til að hjálpa öðrum að nota kraft gervigreindar í félagslegum tilgangi.