Tekoäly

Tutkijat luovat AI-mallin, joka pystyy laulamaan sekä kiinaksi että englanniksi

Published July 17, 2020

Updated April 28, 2026

Daniel Nelson

Microsoftin ja Zhajiang-yliopiston tutkijaryhmä on vastikään luonut AI-mallin, joka pystyy laulamaan useilla kielillä. Kuten VentureBeat raportoi, tutkijaryhmän kehittämä DeepSinger AI koulutettiin eri musiikkisivustojen aineistoilla, jotka käyttivät algoritmeja, jotka tallensivat laulajan äänen sävyn.

AI-laulajan “äänen” luominen vaatii algoritmeja, jotka pystyvät ennustamaan ja hallitsemaan sekä äänen korkeutta että kestoa. Kun ihmiset laulavat, heidän tuottamansa äänet ovat paljon monimutkaisempia rytmien ja kuvioiden suhteen verrattuna yksinkertaiseen puheluun. Toinen ongelma, jonka tutkijaryhmän täytyi ratkaista, oli se, että vaikka puhetta/konversaatiota harjoittavaa koulutusaineistoa on tarjolla kohtuullisesti, laulua harjoittavaa koulutusaineistoa on melko vähän. Yhdistä nämä haasteet siihen, että kappaleiden on oltava sekä äänen että sanoitusten analyysi, ja laulun luomisen ongelma on erittäin monimutkainen.

Tutkijaryhmän luoma DeepSinger-järjestelmä ratkaisi nämä haasteet kehittämällä data-pipeline-järjestelmän, joka kaivoi ja muunsi äänen aineistoa. Laulunotot otettiin eri musiikkisivustoilta, ja sitten laulu eristettiin muusta äänen aineistosta ja jaettiin lauseisiin. Seuraava vaihe oli määritellä jokaisen fonemiikan kestoa sanoituksissa, mikä johti sarjaan näytteitä, joista jokainen edusti yksilöllistä fonemiikkaa sanoituksissa. Aineiston puhdistus tehtiin käsitelläkseen vääristyneitä koulutusnäytteitä sanoitusten ja äänen näytteiden järjestämisen jälkeen luottamusluokituksen mukaan.

Samanlainen menetelmä vaikuttaa toimivan useilla kielillä. DeepSinger koulutettiin kiinalaisilla, kantonilaisilla ja englanninkielisillä laulunäytteillä, jotka koostuivat 89 eri laulajan laulamisesta yli 92 tunnin ajan. Tutkimuksen tulokset osoittivat, että DeepSinger-järjestelmä pystyi luotettavasti tuottamaan korkealaatuisia “laulunäytteitä” mittareiden kuten sävelkorkeuden tarkkuuden ja laulun luonnollisuuden perusteella. Tutkijat pyysivät 20 henkilöä arvioimaan sekä DeepSingerin tuottamia kappaleita että koulutuslauluja näiden mittareiden perusteella, ja ero arvosanojen välillä tuotetuille näytteille ja aitojen äänten välillä oli melko pieni. Osallistujat antoivat DeepSingerille keskiarvoisen mielipidemittarin, joka poikkesi 0,34:stä 0,76:een.

Tulevaisuudessa tutkijat haluavat yrittää parantaa tuotettujen äänien laatua kouluttamalla DeepSingerin alimallien yhdistelmää erityisteknologioita kuten WaveNet käyttäen, jotka on suunniteltu erityisesti luonnollisen kuuloisen puheen tuottamiseen äänen aaltojen avulla.

DeepSinger-järjestelmää voidaan käyttää auttamaan laulajia ja muita musiikkitaiteilijoita tekemään korjauksia työhön ilman, että heidän tarvitsee mennä takaisin studioon uuteen äänityssessioon. Se voidaan myös potentiaalisesti käyttää luomaan äänen syvänvalenne, jotta se vaikuttaa siltä, että taiteilija lauloi kappaleen, jota hän ei todella laulanut. Vaikka sitä voidaan käyttää parodioinnissa tai satiirissa, sen laillinen asema on epävarma.

DeepSinger on vain yksi uuden aallon AI-pohjaisista musiikki- ja äänijärjestelmistä, jotka voivat muuttaa, miten musiikki ja ohjelmisto vuorovaikuttavat. OpenAI julkaisi hiljattain oman AI-järjestelmänsä, jota kutsutaan JukeBoxiksi, joka pystyy tuottamaan alkuperäisiä musiikkikappaleita tietyn genren tai jopa tietyn taiteilijan tyylissä. Muita musiikin AI-työkaluja ovat Google Magenta ja Amazon DeepComposer. Magenta on avoimen lähdekoodin äänen (ja kuvan) manipulointikirjasto, jota voidaan käyttää tuottamaan kaikkea automaattisista rummun taustoista yksinkertaisiin musiikin perustuviin videopeliin. Amazon DeepComposer on suunnattu niille, jotka haluavat kouluttaa ja mukauttaa omia musiikin perusteisia syväoppimismalleja, jolloin käyttäjä voi ottaa esikoulutetut mallinäytteet ja säätää malleja tarpeidensa mukaan.

Voit kuunnella joitakin DeepSingerin tuottamia äänenäytteitä tässä linkissä.

Daniel Nelson

Blogger ja ohjelmoija, jolla on erityisalat Machine Learning ja Deep Learning -aiheissa. Daniel toivoo pystyvänsä auttamaan muita käyttämään tekoälyn voimaa sosiaaliseen hyvään.

Unite.AI

Tutkijat luovat AI-mallin, joka pystyy laulamaan sekä kiinaksi että englanniksi

You may like