Connect with us

Forskere opretter AI-model, der kan synge på både kinesisk og engelsk

Kunstig intelligens

Forskere opretter AI-model, der kan synge på både kinesisk og engelsk

mm

Et hold af forskere fra Microsoft og Zhajiang University har nyligt oprettet en AI-model, der kan synge på flere sprog. Som VentureBeat rapporterede, blev DeepSinger AI udviklet af holdet trænet på data fra forskellige musik-websites, ved hjælp af algoritmer, der fik fat på timbren af sangerens stemme.

Generering af en “stemme” til en AI-sanger kræver algoritmer, der kan forudsige og kontrollere både tonehøjde og varighed af lyd. Når mennesker synger, har de lyde, de producerer, langt mere komplekse rytmer og mønstre sammenlignet med simpel tale. Et andet problem for holdet at overvinde var, at mens der er en rimelig mængde tale/træningsdata til rådighed, er sangtræningsdata-sæt ret sjældne. Kombiner disse udfordringer med, at sange skal have både lyd og tekst analyseret, og problemet med at generere sang er utroligt komplekst.

DeepSinger-systemet, der er oprettet af forskerne, overvandt disse udfordringer ved at udvikle en data-pipeline, der udvandt og omdannede lyddata. Klip af sang blev udtrukket fra forskellige musik-websites, og derefter blev sangen isoleret fra resten af lyden og delt op i sætninger. Næste skridt var at bestemme varigheden af hver fonem i teksten, hvilket resulterede i en række prøver, der hver repræsenterer et unikt fonem i teksten. Rensning af data blev udført for at håndtere eventuelle forvrængede træningsprøver efter, at teksten og den tilhørende lydprøve var sorteret efter tillidsscore.

De samme metoder synes at virke for en række sprog. DeepSinger blev trænet på kinesiske, kantonesiske og engelske vokalprøver bestående af 89 forskellige sangere, der sang i over 92 timer. Resultaterne af studiet fandt, at DeepSinger-systemet kunne pålideligt generere højkvalitets “sang”-prøver ifølge mål som tonehøjde og hvor naturlig sangen lød. Forskerne havde 20 personer bedømme både sange genereret af DeepSinger og træningssange ifølge disse mål, og forskellen mellem scorene for de genererede prøver og ægte lyd var ret lille. Deltagerne gav DeepSinger en gennemsnitlig meningsudtryk, der afveg med mellem 0,34 og 0,76.

Fremover vil forskerne prøve at forbedre kvaliteten af de genererede stemmer ved at træne de forskellige undermodeller, der udgør DeepSinger, med hjælp fra specialteknologier som WaveNet, der er designet specifikt til opgaven med at generere naturlig lydende tale gennem lydbølger.

DeepSinger-systemet kan bruges til at hjælpe sangere og andre musikere med at korrigere deres arbejde uden at skulle gå tilbage i studiet for en ny optagelse. Det kan også potentielt bruges til at skabe audio-deepfakes, så det ser ud, som om en kunstner sang en sang, de aldrig faktisk gjorde. Mens det kan bruges til parodi eller satire, er det også af tvivlsom lovlighed.

DeepSinger er kun ét af en bølge af nye AI-baserede musik- og lydsystemer, der kan ændre, hvordan musik og software interagerer. OpenAI har nyligt udgivet deres eget AI-system, kaldet JukeBox, der kan producere originale musikspor i stil med et bestemt genre eller endda en specifik kunstner. Andre musikalske AI-værktøjer omfatter Googles Magenta og Amazons DeepComposer. Magenta er en open source-lyd- (og billed-) manipulationsbibliotek, der kan bruges til at producere alt fra automatiserede tromme-backing til simple musik-baserede videospil. Imens er Amazons DeepComposer rettet mod dem, der ønsker at træne og tilpasse deres egne musik-baserede dybe læremodeller, så brugeren kan tage forudtrænede prøvemodeller og tilpasse modellerne til deres behov.

Du kan lytte til nogle af de lydprøver, der er genereret af DeepSinger på dette link.

Blogger og programmør med specialer i Machine Learning og Deep Learning emner. Daniel håber at hjælpe andre med at bruge AI's kraft til sociale formål.