Liity verkostomme!

Tekoäly

Tutkijat luovat tekoälymallin, joka pystyy laulamaan sekä kiinaksi että englanniksi

mm

Microsoftin ja Zhajiang Universityn tutkijaryhmä on hiljattain luonut tekoälymallin, joka pystyy laulamaan useilla kielillä. Kuten VentureBeat raportoi, tiimin kehittämä DeepSinger AI oli koulutettu tietoja eri musiikkisivustoilta käyttämällä algoritmeja, jotka taltioivat laulajan äänen syvyyden.

AI-laulajan "äänen" luominen vaatii algoritmeja, jotka pystyvät ennustamaan ja hallitsemaan sekä äänen korkeutta että kestoa. Kun ihmiset laulavat, heidän tuottamiensa äänien rytmit ja kuviot ovat huomattavasti monimutkaisempia kuin yksinkertainen puhe. Toinen tiimin ratkaistava ongelma oli se, että vaikka puhumisen/puheen harjoittelutietoa on melko paljon saatavilla, laulun harjoittelutietojoukot ovat melko harvinaisia. Yhdistä nämä haasteet siihen, että kappaleiden ääni ja sanat on analysoitava, ja laulun luomisen ongelma on uskomattoman monimutkainen.

Tutkijoiden luoma DeepSinger-järjestelmä voitti nämä haasteet kehittämällä dataputken, joka louhi ja muunsi äänidataa. Laulun pätkät poimittiin eri musiikkisivustoilta, minkä jälkeen laulu eristetään muusta äänestä ja jaetaan lauseiksi. Seuraava askel oli määrittää sanoitusten jokaisen foneemin kesto, mikä johti sarjaan näytteitä, joista jokainen edustaa ainutlaatuista foneemia sanoituksissa. Data puhdistetaan vääristyneiden harjoitusnäytteiden käsittelemiseksi sen jälkeen, kun sanoitukset ja niihin liittyvät ääninäytteet on lajiteltu luottamuspisteiden mukaan.

Täsmälleen samat menetelmät näyttävät toimivan useilla kielillä. DeepSinger oli koulutettu kiinan, kantonin ja englannin laulunäytteillä, jotka koostuivat 89 eri laulajalta, jotka lauloivat yli 92 tuntia. Tutkimuksen tulokset osoittivat, että DeepSinger-järjestelmä pystyi luomaan luotettavasti korkealaatuisia "laulu"näytteitä mittareiden, kuten äänenkorkeuden tarkkuuden ja laulun kuulostavan mukaan. Tutkijat saivat 20 ihmistä arvioimaan sekä DeepSingerin luomia kappaleita että harjoituskappaleita näiden mittareiden mukaan, ja ero luotujen näytteiden ja aidon äänen pistemäärän välillä oli melko pieni. Osallistujat antoivat DeepSingerille keskimääräisen mielipidepisteen, joka poikkesi välillä 0.34 ja 0.76.

Tulevaisuudessa tutkijat haluavat yrittää parantaa luotujen äänten laatua kouluttamalla yhdessä erilaisia ​​DeepSingerin sisältäviä alamalleja, jotka tehdään erikoistekniikoiden, kuten WaveNetin, avulla, jotka on suunniteltu erityisesti luomaan luonnollisen kuuloista puhetta ääniaaltomuotojen kautta. .

DeepSinger-järjestelmää voitaisiin käyttää auttamaan laulajia ja muita musiikkitaiteilijoita tekemään korjauksia toimimaan ilman, että heidän tarvitsee mennä takaisin studioon toiseen äänitysistuntoon. IT:tä voitaisiin mahdollisesti käyttää myös äänen syväväärennösten luomiseen, jolloin näyttäisi siltä, ​​että artisti laulaisi kappaleen, jota hän ei koskaan tehnyt. Vaikka sitä voitaisiin käyttää parodiaan tai satiiriin, sen laillisuus on myös kyseenalainen.

DeepSinger on vain yksi uusien tekoälypohjaisten musiikki- ja äänijärjestelmien aallosta, joka voi muuttaa musiikin ja ohjelmistojen vuorovaikutusta. OpenAI julkaisi äskettäin oman tekoälyjärjestelmänsä, nimeltä JukeBox, joka pystyy tuottamaan alkuperäisiä musiikkikappaleita tietyn genren tai jopa tietyn artistin tyyliin. Muita musiikillisia tekoälytyökaluja ovat mm Googlen Magenta ja Amazonin DeepComposer. Magnets on avoimen lähdekoodin äänen (ja kuvan) käsittelykirjasto, jonka avulla voidaan tuottaa kaikkea automatisoidusta rumputaustasta yksinkertaisiin musiikkiin perustuviin videopeleihin. Samaan aikaan Amazonin DeepComposer on suunnattu niille, jotka haluavat kouluttaa ja mukauttaa omia musiikkipohjaisia ​​syväoppimismallejaan, jolloin käyttäjä voi ottaa valmiiksi koulutettuja näytemalleja ja muokata malleja omien tarpeidensa mukaan.

Voit kuunnella joitain DeepSingerin luomia ääninäytteitä tällä linkillä.