Kunstig intelligens
Forskere lager AI-modell som kan synge pÄ bÄde kinesisk og engelsk

Et team av forskere fra Microsoft og Zhajiang University har nylig laget en AI-modell som er i stand til Ä synge pÄ en rekke sprÄk. Som VentureBeat rapporterte, DeepSinger AI utviklet av teamet ble trent pÄ data fra ulike musikknettsteder, ved hjelp av algoritmer som fanget klangen til sangerens stemme.
à generere "stemmen" til en AI-sanger krever algoritmer som er i stand til Ä forutsi og kontrollere bÄde tonehÞyde og varighet av lyd. NÄr folk synger, har lydene de produserer mye mer komplekse rytmer og mÞnstre sammenlignet med enkel tale. Et annet problem for teamet Ä overvinne var at selv om det er en god del tale-/taletreningsdata tilgjengelig, er datasett for sangtrening ganske sjeldne. Kombiner disse utfordringene med at sanger mÄ ha bÄde lyd og tekst analysert, og problemet med Ä generere sang er utrolig komplekst.
DeepSinger-systemet laget av forskerne overvant disse utfordringene ved Ä utvikle en datapipeline som utvinner og transformerte lyddata. Sangklippene ble hentet ut fra ulike musikknettsteder, og deretter blir sangen isolert fra resten av lyden og delt inn i setninger. Det neste trinnet var Ä bestemme varigheten av hvert fonem i teksten, noe som resulterte i en serie prÞver som hver representerte et unikt fonem i teksten. RengjÞring av dataene gjÞres for Ä hÄndtere eventuelle forvrengte treningsprÞver etter at tekstene og tilhÞrende lydprÞver er sortert i henhold til konfidensresultatet.
De nÞyaktig samme metodene ser ut til Ä fungere for en rekke sprÄk. DeepSinger ble trent pÄ kinesisk, kantone og engelsk vokalprÞver bestÄende av 89 forskjellige sangere som sang i over 92 timer. Resultatene av studien fant at DeepSinger-systemet var i stand til pÄlitelig Ä generere hÞykvalitets "syngende" prÞver i henhold til beregninger som nÞyaktighet av tonehÞyde og hvor naturlig sangen hÞrtes ut. Forskerne fikk 20 personer til Ä vurdere bÄde sanger generert av DeepSinger og treningssangene i henhold til disse beregningene, og gapet mellom poengsummene for de genererte prÞvene og ekte lyd var ganske lite. Deltakerne ga DeepSinger en gjennomsnittlig meningsscore som avvek med mellom 0.34 og 0.76.
Ser frem til, Þnsker forskerne Ä prÞve Ä forbedre kvaliteten pÄ de genererte stemmene ved i fellesskap Ä trene de ulike undermodellene som utgjÞr DeepSinger, gjort ved hjelp av spesialteknologier som WaveNet som er designet spesielt for oppgaven med Ä generere naturlig lydende tale gjennom lydbÞlgeformer .
DeepSinger-systemet kan brukes til Ä hjelpe sangere og andre musikalske artister med Ä gjÞre korrigeringer for Ä fungere uten Ä mÄtte gÄ tilbake i studio for en ny innspillingsÞkt. DET kan ogsÄ potensielt brukes til Ä lage lyddeepfakes, noe som fÄr det til Ä virke som en artist sang en sang de faktisk aldri gjorde. Selv om den kan brukes til parodi eller satire, er den ogsÄ av tvilsom lovlighet.
DeepSinger er bare en av en bÞlge av nye AI-baserte musikk- og lydsystemer som kan transformere hvordan musikk og programvare samhandler. OpenAI lanserte nylig sitt eget AI-system, kalt JukeBox, som er i stand til Ä produsere originale musikkspor i stilen til en viss sjanger eller til og med en spesifikk artist. Andre musikalske AI-verktÞy inkluderer Googles magenta og Amazons DeepComposer. Magnets er et Äpen kildekode-lyd- (og bilde-) manipulasjonsbibliotek som kan brukes til Ä produsere alt fra automatisert trommestÞtte til enkle musikkbaserte videospill. I mellomtiden er Amazons DeepComposer rettet mot de som Þnsker Ä trene og tilpasse sine egne musikkbaserte dyplÊringsmodeller, slik at brukeren kan ta forhÄndstrente eksempelmodeller og tilpasse modellene til deres behov.
Du kan lytte til noen av lydeksemplene generert av DeepSinger ved denne lenken.