Kunstmatige intelligentie

Onderzoekers creëren AI-model dat zingt in zowel Chinees als Engels

Published July 17, 2020

Updated April 28, 2026

Daniel Nelson

Een team van onderzoekers van Microsoft en Zhajiang University heeft onlangs een AI-model ontwikkeld dat in verschillende talen kan zingen. Volgens VentureBeat is het DeepSinger AI, ontwikkeld door het team getraind op gegevens van verschillende muziekwebsites, met behulp van algoritmen die de timbre van de zangerstem vingen.

Het genereren van de “stem” van een AI-zanger vereist algoritmen die in staat zijn om zowel de toonhoogte als de duur van audio te voorspellen en te controleren. Wanneer mensen zingen, hebben de geluiden die ze produceren veel complexere ritmes en patronen in vergelijking met eenvoudige spraak. Een ander probleem dat het team moest overwinnen, was dat er, hoewel er een redelijke hoeveelheid trainingsgegevens voor spraak beschikbaar is, zangtrainingsdatasets relatief zeldzaam zijn. Combineer deze uitdagingen met het feit dat liedjes zowel geluid als lyrics moeten hebben die geanalyseerd moeten worden, en het probleem van het genereren van zang is enorm complex.

Het DeepSinger-systeem, ontwikkeld door de onderzoekers, overwon deze uitdagingen door een datapipeline te ontwikkelen die audio-gegevens ontgon en transformeerde. De zangclips werden geëxtraheerd uit verschillende muziekwebsites, en vervolgens werd de zang geïsoleerd van de rest van de audio en opgedeeld in zinnen. De volgende stap was om de duur van elke foneme in de lyrics te bepalen, waardoor een reeks monsters ontstond die elk een unieke foneme in de lyrics vertegenwoordigden. De gegevens werden schoongemaakt om eventuele vervormde trainingsmonsters te verwerken nadat de lyrics en de bijbehorende audio-monsters waren gesorteerd op basis van een betrouwbaarheidscore.

De exacte zelfde methoden lijken te werken voor een verscheidenheid aan talen. DeepSinger werd getraind op Chinese, Cantoneese en Engelse vocale monsters, bestaande uit 89 verschillende zangers die meer dan 92 uur zongen. De resultaten van de studie toonden aan dat het DeepSinger-systeem in staat was om betrouwbare, hoge kwaliteit “zang”-monsters te genereren volgens metrics zoals de nauwkeurigheid van de toonhoogte en hoe natuurlijk de zang klonk. De onderzoekers lieten 20 mensen zowel liedjes gegenereerd door DeepSinger als de trainingsliedjes beoordelen op basis van deze metrics, en de kloof tussen de scores voor de gegenereerde monsters en de echte audio was vrij klein. De deelnemers gaven DeepSinger een gemiddelde meningsscore die afweek tussen 0,34 en 0,76.

In de toekomst willen de onderzoekers proberen de kwaliteit van de gegenereerde stemmen te verbeteren door de verschillende submodellen die DeepSinger vormen, gezamenlijk te trainen, met behulp van specialiteiten zoals WaveNet die specifiek zijn ontworpen voor de taak van het genereren van natuurlijk klinkende spraak via audiogolven.

Het DeepSinger-systeem kan worden gebruikt om zangers en andere muzikale artiesten te helpen bij het maken van correcties aan hun werk zonder dat ze terug naar de studio hoeven te gaan voor een nieuwe opnamesessie. Het kan ook potentieel worden gebruikt om audio-deepfakes te creëren, waardoor het lijkt alsof een artiest een liedje zong dat ze eigenlijk nooit hebben gedaan. Hoewel het kan worden gebruikt voor parodie of satire, is het ook van twijfelachtige legaliteit.

DeepSinger is slechts een van een golf van nieuwe AI-gebaseerde muziek- en audiosystemen die de manier waarop muziek en software interactief zijn, kunnen transformeren. OpenAI heeft onlangs hun eigen AI-systeem genaamd JukeBox uitgebracht, dat in staat is om originele muziektracks te produceren in de stijl van een bepaald genre of zelfs een specifieke artiest. Andere muzikale AI-tools zijn Google’s Magenta en Amazon’s DeepComposer. Magenta is een open-source audiobibliotheek (en beeld) die kan worden gebruikt om alles te produceren, van geautomatiseerde drum-backing tot eenvoudige muziekgebaseerde videogames. Ondertussen is Amazon’s DeepComposer gericht op mensen die hun eigen muziekgebaseerde diepe leermodellen willen trainen en aanpassen, waardoor de gebruiker vooraf getrainde samplemodellen kan nemen en de modellen naar hun behoeften kan aanpassen.

U kunt enkele van de door DeepSinger gegenereerde audiomonsters hier beluisteren.

Daniel Nelson

Blogger en programmeur met specialisaties in Machine Learning en Deep Learning onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor het sociale goede.

Unite.AI

Onderzoekers creëren AI-model dat zingt in zowel Chinees als Engels

You may like