stub Forskere skaber AI-model, der er i stand til at synge på både kinesisk og engelsk - Unite.AI
Følg os

Kunstig intelligens

Forskere skaber AI-model, der er i stand til at synge på både kinesisk og engelsk

mm
Opdateret on

Et team af forskere fra Microsoft og Zhajiang University har for nylig skabt en AI-model, der er i stand til at synge på adskillige sprog. Som VentureBeat rapporterede, DeepSinger AI udviklet af holdet blev trænet på data fra forskellige musikwebsteder ved hjælp af algoritmer, der fangede klangen i sangerens stemme.

At generere en AI-sangers "stemme" kræver algoritmer, der er i stand til at forudsige og kontrollere både tonehøjden og varigheden af ​​lyd. Når folk synger, har de lyde, de producerer, langt mere komplekse rytmer og mønstre sammenlignet med simpel tale. Et andet problem for holdet at overvinde var, at selvom der er en rimelig mængde tale-/taletræningsdata til rådighed, er sangtræningsdatasæt ret sjældne. Kombiner disse udfordringer med det faktum, at sange skal have både lyd og tekst analyseret, og problemet med at generere sang er utrolig komplekst.

DeepSinger-systemet skabt af forskerne overvandt disse udfordringer ved at udvikle en datapipeline, der minede og transformerede lyddata. Klippene af sang blev hentet fra forskellige musikhjemmesider, og derefter er sangen isoleret fra resten af ​​lyden og opdelt i sætninger. Det næste trin var at bestemme varigheden af ​​hvert fonem i teksterne, hvilket resulterede i en række prøver, der hver repræsenterede et unikt fonem i teksten. Rensning af dataene udføres for at håndtere eventuelle forvrængede træningsprøver, efter at teksterne og de tilhørende lydprøver er sorteret efter konfidensresultat.

De nøjagtige samme metoder ser ud til at virke for en række forskellige sprog. DeepSinger blev trænet på kinesisk, kantone og engelsk vokalprøver bestående af 89 forskellige sangere, der sang i over 92 timer. Resultaterne af undersøgelsen viste, at DeepSinger-systemet var i stand til pålideligt at generere højkvalitets "synge"-samples i henhold til målinger som nøjagtighed af tonehøjde og hvor naturlig sangen lød. Forskerne fik 20 personer til at vurdere både sange genereret af DeepSinger og træningssange i henhold til disse målinger, og kløften mellem scores for de genererede samples og ægte lyd var ret lille. Deltagerne gav DeepSinger en gennemsnitlig meningsscore, der afveg med mellem 0.34 og 0.76.

Ser frem til, ønsker forskerne at prøve at forbedre kvaliteten af ​​de genererede stemmer ved i fællesskab at træne de forskellige undermodeller, der udgør DeepSinger, udført med hjælp fra specialteknologier som WaveNet, der er designet specifikt til opgaven med at generere naturligt lydende tale gennem lydbølgeformer .

DeepSinger-systemet kunne bruges til at hjælpe sangere og andre musikalske kunstnere med at rette til arbejdet uden at skulle tilbage i studiet til endnu en optagelsessession. DET kan også potentielt bruges til at skabe lyd-deepfakes, hvilket får det til at virke som om en kunstner sang en sang, de faktisk aldrig gjorde. Selvom det kunne bruges til parodi eller satire, er det også af tvivlsom lovlighed.

DeepSinger er blot en af ​​en bølge af nye AI-baserede musik- og lydsystemer, der kan transformere, hvordan musik og software interagerer. OpenAI udgav for nylig deres eget AI-system, døbt JukeBox, der er i stand til at producere originale musiknumre i stil med en bestemt genre eller endda en bestemt kunstner. Andre musikalske AI-værktøjer inkluderer Googles magenta , Amazons DeepComposer. Magnets er et open source-lyd- (og billed-) manipulationsbibliotek, der kan bruges til at producere alt fra automatiseret trommebacking til simple musikbaserede videospil. I mellemtiden er Amazons DeepComposer rettet mod dem, der ønsker at træne og tilpasse deres egne musikbaserede deep learning-modeller, hvilket giver brugeren mulighed for at tage præ-trænede prøvemodeller og tilpasse modellerne til deres behov.

Du kan lytte til nogle af lydeksemplerne genereret af DeepSinger på dette link.