Artificiell intelligens

OpenAI Skapar Nytt AI-Program För Att Skapa Musik Baserat PÄ Genrer

mm

Den oberoende forskningsorganisationen OpenAI har nyligen släppt en ny form av generativ AI som kallas Jukebox, uppkallad efter dess förmåga att generera musik. Jukebox-AI kan generera ljud baserat på attribut som instrumentering och till och med texter, och OpenAI-forskningsgruppen skapade AI genom att träna den på komprimerade ljudklipp och olika textfragment.

Som TechCrunch rapporterade tränade OpenAI-forskarna modellen med hjälp av råa ljudklipp, vilket gav modellen förmågan att producera ljud. Detta skiljer sig från de metoder som används för att skapa andra musikgenereringsapplikationer, som ofta förlitar sig på “symbolisk musik” (som MIDI-musik), som är information om noter och tonhöjder men inget riktigt ljud. Forskarteamet använde konvolutionsneuronnät för att träna modellen, komprimera ljudet och koda det i ett format som neuronnätverket kunde tolka. Därefter användes en transformer för att generera komprimerat ljud, som sedan uppsamlades för att konvertera data till ett ljudformat.

När Jukebox skapades var OpenAI tvunget att skapa en metod för att hantera den komplexa, täta naturen hos ljud. Forskarna hanterade den kontinuerliga naturen hos ljud genom att bryta det ned i mer diskreta, lättillgängliga sektioner, och dela upp låtar i bitar som är 1/128:e sekund långa. Målet var att skapa en AI-modell som kunde bryta ned låtar i bitar som var tillräckligt stora för att problemet inte skulle bli olösligt, men samtidigt tillräckligt små och precisa så att modellerna kunde lära sig mönstret i en låt och återskapa det.

Tekniken som användes av OpenAI delar vissa likheter med en äldre musikgenererings-AI som företaget producerade, kallad MuseNet. MuseNet tränades på MIDI-filer och kunde generera musik i en mängd olika stilar, men fokuserade på låtens övergripande melodi och kunde inte producera texter. I kontrast kan Jukebox skriva sina egna texter för att åtfölja musiken. Texterna “skrivs tillsammans” av OpenAI-forskarna, som guidar modellen mot att skapa texter i vissa stilar. Jukebox-systemet tränades på texter som skrapades från LyricWiki, med träningsdata som bestod av text och metadata på 1,2 miljoner låtar.

När det gäller modellens texter försökte forskarna först använda en enkel heuristik som sträckte ut texterna till ungefär låtens varaktighet, och analyserade texten som motsvarade en viss del/segment av låten. Denna enkla metod fungerade bra i allmänhet, men forskarna upptäckte att när texterna var särskilt snabba bröt den ned. För att hantera detta problem extraherades vokaler från låten och anpassades till texten för att få ordnivåjusteringar för texterna. Därefter användes en kodningslager för texterna tillsammans med en uppmärksamhetslager som kartade delar av musiken till texter med hjälp av nyckel-värdepar. Resultatet var att texterna och vokalerna hade en ganska exakt matchning.

Författarna till artikeln noterar också att det finns flera begränsningar som Jukebox har, och att framtida arbete kommer att syfta till att förbättra AI:s förmåga. Som författarna skriver i en bloggpost:

”Medan Jukebox representerar ett steg framåt i musikalisk kvalitet, sammanhang, ljudexempelens längd och förmåga att villkora på artist, genre och text, finns det ett betydande gap mellan dessa generationer och människoskapad musik. Till exempel, medan de genererade låtarna visar lokalt musikaliskt sammanhang, följer traditionella ackordmönster och kan till och med innehålla imponerande solon, hör vi inte bekanta större musikaliska strukturer som refränger som upprepas.”

För närvarande kan modellen producera en låt som är igenkännlig i en specifik genres eller till och med en specifik artists stil. Till exempel kan den producera låtar i stilen med Elvis Presley, Katy Perry eller Rage Against the Machine. Även om låtarna är igenkännliga inom en genre eller har ett tema runt en sångares stil, är de också ganska grova, ofta låter de som en parodi eller en dålig coverversion av en låt. Trots detta är den tekniska prestationen imponerande. Forskarna som skapade AI-genereringssystemet valde att arbeta med ett program som kunde generera musik specifikt för att uppgiften var svår, och forskarna planerar att fortsätta att förfinansiera sina tekniker. Du kan lyssna på några av låtarna här.

Blogger och programmerare med specialomrÄden inom Machine Learning och Deep Learning Àmnen. Daniel hoppas pÄ att hjÀlpa andra att anvÀnda kraften frÄn AI för socialt vÀl.