Kunstig intelligens
Forskere utvikler AI-modell som kan synge på både kinesisk og engelsk

Et team av forskere fra Microsoft og Zhajiang University har nylig utviklet en AI-modell som kan synge på flere språk. Som VentureBeat rapporterte, ble DeepSinger AI utviklet av teamet trent på data fra ulike musikksider, ved hjelp av algoritmer som fanget timbren til sangerens stemme.
Generering av “stemmen” til en AI-sanger krever algoritmer som kan forutsi og kontrollere både tonehøyde og varighet av lyd. Når mennesker synger, har lydene de produserer mye mer komplekse rytmer og mønster sammenlignet med vanlig tale. Et annet problem for teamet å overvinne var at mens det finnes en del tale/treningdata tilgjengelig, er sangtreningdatamengder relativt sjeldne. Kombiner disse utfordringene med det faktum at sanger må ha både lyd og tekst analysert, og problemet med å generere sang er usedvanlig komplekst.
DeepSinger-systemet utviklet av forskerne overvant disse utfordringene ved å utvikle en datapipeline som utvant og transformerte lyddata. Klipp av sang ble extractet fra ulike musikksider, og deretter ble sangen isolert fra resten av lyden og delt inn i setninger. Neste skritt var å bestemme varigheten av hver fonem i tekstene, med resultat i en rekke prøver som hver representerte et unikt fonem i tekstene. Rensning av data gjøres for å håndtere eventuelle forvrengte treningseksempler etter at tekstene og tilhørende lydprøver er sortert etter konfidensscore.
De samme metodene ser ut til å fungere for en rekke språk. DeepSinger ble trent på kinesiske, cantonesiske og engelske vokaleksempler bestående av 89 forskjellige sangere som sang i over 92 timer. Resultatene av studien fant at DeepSinger-systemet kunne pålitelig generere høykvalitets “sang” eksempler ifølge mål som nøyaktighet av tonehøyde og hvor naturlig sangen låt. Forskerne hadde 20 personer vurdere både sanger generert av DeepSinger og treningssangene ifølge disse målene, og gapet mellom poengene for de genererte eksemplene og ekte lyd var ganske lite. Deltagerne ga DeepSinger en gjennomsnittlig meningspoeng som avvek mellom 0,34 og 0,76.
Ser fremover, ønsker forskerne å prøve å forbedre kvaliteten på de genererte stemmene ved å trenere de ulike undermodellene som utgjør DeepSinger, gjort med hjelp av spesialteknologier som WaveNet som er designet spesifikt for oppgaven med å generere naturlig lydende tale gjennom lydbølger.
DeepSinger-systemet kunne brukes til å hjelpe sangere og andre musikere med å korrigere arbeid uten å måtte gå tilbake til studio for en ny innspillingsøkt. Det kunne også potensielt brukes til å lage audio deepfakes, og gjøre det slik at det ser ut som om en artist sang en sang de aldri faktisk gjorde. Mens det kunne brukes til parodi eller satire, er det også av tvilsom lovlighet.
DeepSinger er bare ett av en bølge av nye AI-baserte musikk- og lydsystemer som kunne transformere hvordan musikk og programvare samhandler. OpenAI har nylig lansert sitt eget AI-system, kalt JukeBox, som kan produsere originale musikkspor i stil med en bestemt sjanger eller selv en bestemt artist. Andre musikalske AI-verktøy inkluderer Googles Magenta og Amazons DeepComposer. Magenta er en åpen kildekode lyd- (og bilde-) manipulasjonsbibliotek som kan brukes til å produsere alt fra automatiserte trommebakgrunner til enkle musikkbaserte videospill. Mens Amazons DeepComposer er rettet mot de som ønsker å trenere og tilpasse sine egne musikkbaserte dyptlæringsmodeller, og lar brukeren ta forhåndsdefinerte eksempler og finjustere modellene etter behov.
Du kan lytte til noen av lydeksemplene generert av DeepSinger på denne lenken.












