Artificiell intelligens

Forskare skapar AI-modell som kan sjunga på både kinesiska och engelska

Uppdaterad on December 9, 2022

Ett team av forskare från Microsoft och Zhajiang University har nyligen skapat en AI-modell som kan sjunga på många språk. Som VentureBeat rapporterade, DeepSinger AI som utvecklats av teamet tränades på data från olika musikwebbplatser, med hjälp av algoritmer som fångade klangfärgen i sångarens röst.

Att generera "rösten" för en AI-sångare kräver algoritmer som kan förutsäga och kontrollera både tonhöjden och varaktigheten av ljudet. När människor sjunger har ljuden de producerar mycket mer komplexa rytmer och mönster jämfört med enkelt tal. Ett annat problem för laget att övervinna var att även om det finns en hel del tal-/talträningsdata tillgänglig, är sångträningsdatauppsättningar ganska sällsynta. Kombinera dessa utmaningar med det faktum att låtar måste ha både ljud och text analyserade, och problemet med att generera sång är otroligt komplext.

DeepSinger-systemet som skapats av forskarna övervann dessa utmaningar genom att utveckla en datapipeline som utvann och transformerade ljuddata. Sångklippen extraherades från olika musikwebbplatser, och sedan isoleras sången från resten av ljudet och delas upp i meningar. Nästa steg var att bestämma varaktigheten för varje fonem i texten, vilket resulterade i en serie prover som var och en representerade ett unikt fonem i texten. Rengöring av data görs för att hantera eventuella förvrängda träningsprover efter att texterna och tillhörande ljudprover sorterats efter konfidenspoäng.

Exakt samma metoder verkar fungera för en mängd olika språk. DeepSinger tränades på kinesiska, kantoniska och engelska sångprover som bestod av 89 olika sångare som sjöng i över 92 timmar. Resultaten av studien fann att DeepSinger-systemet på ett tillförlitligt sätt kunde generera högkvalitativa "sjungande" samplingar enligt mätvärden som tonhöjdsnoggrannhet och hur naturligt sången lät. Forskarna fick 20 personer att betygsätta både låtarna som genererades av DeepSinger och träningslåtarna enligt dessa mätvärden och gapet mellan poängen för de genererade samplingarna och äkta ljudet var ganska litet. Deltagarna gav DeepSinger ett genomsnittligt opinionsvärde som avvek med mellan 0.34 och 0.76.

Ser fram emot vill forskarna försöka förbättra kvaliteten på de genererade rösterna genom att gemensamt träna de olika undermodellerna som består av DeepSinger, gjorda med hjälp av specialteknologier som WaveNet som är utformade specifikt för uppgiften att generera naturligt ljudande tal genom ljudvågformer .

DeepSinger-systemet kan användas för att hjälpa sångare och andra musikartister att göra korrigeringar för att fungera utan att behöva gå tillbaka in i studion för en ny inspelningssession. DET kan också potentiellt användas för att skapa djupa ljudförfalskningar, vilket får det att verka som om en artist sjöng en låt som de aldrig faktiskt gjorde. Även om den kan användas för parodi eller satir, är den också av tvivelaktig laglighet.

DeepSinger är bara en av en våg av nya AI-baserade musik- och ljudsystem som kan förändra hur musik och programvara interagerar. OpenAI släppte nyligen sitt eget AI-system, döpt till JukeBox, som är kapabel att producera originalmusikspår i stil med en viss genre eller till och med en specifik artist. Andra musikaliska AI-verktyg inkluderar Googles magenta och Amazons DeepComposer. Magnets är ett bibliotek för manipulering av ljud (och bild) med öppen källkod som kan användas för att producera allt från automatiserad trumuppbackning till enkla musikbaserade videospel. Samtidigt riktar sig Amazons DeepComposer till dem som vill träna och anpassa sina egna musikbaserade djupinlärningsmodeller, vilket gör att användaren kan ta förtränade exempelmodeller och anpassa modellerna efter sina behov.

Du kan lyssna på några av ljudproverna som genereras av DeepSinger på den här länken.

Relaterade ämnen:musik sjunga taligenkänning

Strax

AI-modeller hjälper till att förutsäga stora tropiska vågor och havsströmmar

Missa inte

Wilson Pang, Chief Technology Officer på Appen – Intervjuserie

Daniel Nelson

Bloggare och programmerare med specialiteter inom Maskininlärning och Deep Learning ämnen. Daniel hoppas kunna hjälpa andra att använda kraften i AI för socialt bästa.

Unite.AI

Forskare skapar AI-modell som kan sjunga på både kinesiska och engelska

Artificiell intelligens

Forskare skapar AI-modell som kan sjunga på både kinesiska och engelska

Innehållsförteckning

Nya Inlägg

Unite.AI

Forskare skapar AI-modell som kan sjunga på både kinesiska och engelska

Innehållsförteckning

Du må gilla

Nya Inlägg