stub OpenAI skapar nytt AI-program för att skapa musik baserad på genrer - Unite.AI
Anslut dig till vårt nätverk!

Artificiell intelligens

OpenAI skapar nytt AI-program för att skapa musik baserad på genrer

mm
Uppdaterad on

Den oberoende forskningsorganisationen OpenAI har nyligen släppt en ny form av generativ AI dubbad jukebox, namngiven som sådan på grund av dess förmåga att generera musik. Jukebox AI kan generera ljud baserat på attribut som instrumentering och till och med sångtexter, och OpenAI-forskargruppen skapade AI:n genom att träna den på komprimerade ljudklipp och olika textavsnitt.

Som TechCrunch rapporterade, tränade OpenAI-forskarna modellen med hjälp av råa ljudklipp, vilket gav modellen förmågan att producera ljud. Detta i motsats till de metoder som används för att skapa andra musikgenereringsapplikationer, som ofta förlitar sig på "symbolisk musik" (som MIDI-musik) som är information om noter och tonhöjder men inget faktiskt ljud. Teamet av forskare använde konvolutionella neurala nätverk för att träna modellen, komprimera ljudet och koda det till ett format som det neurala nätverket kunde tolka. Efteråt användes en transformator för att generera komprimerat ljud, som uppsamplades för att konvertera data till ett ljudformat.

När man skapade Jukebox var OpenAI tvungen att skapa en metod för att hantera ljudets komplexa, täta natur. Forskarna behandlade ljudets kontinuerliga natur genom att dela upp det i mer diskreta, lättsmälta sektioner, dela upp låtarna i bitar som är 1/128:e av en sekund långa. Målet var att skapa en AI-modell som kan bryta ner låtar i bitar som är tillräckligt stora för att problemet inte ska bli svårlöst, men ändå tillräckligt liten och exakt för att modellerna kan lära sig mönstret för en låt och rekonstruera det mönstret.

Tekniken som används av OpenAI delar vissa likheter med en äldre musikgenerations AI som företaget producerade, kallad MuseNet. MuseNet tränades på MIDI-filer och kunde generera musik i en mängd olika stilar, även om det fokuserade på den övergripande melodin i en låt och inte kunde producera texter. Däremot kan Jukebox skriva sina egna texter för att ackompanjera musiken. Texterna är ”samskrivna” av OpenAI-forskarna, vilket styr modellen mot att skapa texter i vissa stilar. Jukebox-systemet tränades på texter skrapade från LyricWiki, med träningsdata som bestod av text och metadata på 1.2 miljoner låtar.

När det kommer till texten i modellen, försökte forskarna först använda en enkel heuristik som sträckte ut texter till ungefär varaktigheten av en låt, och analyserade texten som motsvarade en viss bit/segment av låten. Detta enkla tillvägagångssätt fungerade bra i allmänhet, även om forskarna fann att när texterna var särskilt snabba gick den sönder. För att komma till rätta med detta problem extraherades sång från låten och justerades med den lyriska texten för att få justeringar på ordnivå för texten. Efteråt användes ett kodningslager för texterna tillsammans med ett uppmärksamhetslager som mappade delar av musiken till texter med nyckel-värdepar. Resultatet blev att text och sång hade en ganska exakt match-up.

Författarna till pappret notera också att det finns flera begränsningar som Jukebox har, och att framtida arbete kommer att syfta till att förbättra förmågan hos AI. Som författarna skriver i ett blogginlägg:

"Även om Jukebox representerar ett steg framåt när det gäller musikalisk kvalitet, koherens, längd på ljudsampling och förmåga att villkora på artist, genre och texter, finns det en betydande klyfta mellan dessa generationer och mänskligt skapad musik. Till exempel, medan de genererade låtarna visar lokal musikalisk sammanhållning, följer traditionella ackordmönster och till och med kan innehålla imponerande solon, hör vi inte bekanta större musikaliska strukturer som refränger som upprepas.”

Just nu är modellen kapabel att producera en låt som är igenkännbar i stil med en specifik genre eller till och med en specifik artist. Till exempel kan den producera låtar i stil med Elvis Presley, Katy Perry eller Rage Against the Machine. Även om låtarna är igenkännbar inom en genre eller tema kring en sångares stil, är de också ganska grova, låter ofta som en parodi eller en dålig coverversion av en låt. Ändå är den tekniska prestationen imponerande. Forskarna som var ansvariga för att skapa AI-genereringssystemet valde att arbeta med ett program som kan generera musik specifikt för att uppgiften var svår, och forskarna planerar att fortsätta att förfina sina tekniker. Du kan lyssna på några av låtarna här..

Bloggare och programmerare med specialiteter inom Maskininlärning och Deep Learning ämnen. Daniel hoppas kunna hjälpa andra att använda kraften i AI för socialt bästa.