stomp OpenAI maakt nieuw AI-programma om muziek te maken op basis van genres - Unite.AI
Verbind je met ons

Artificial Intelligence

OpenAI maakt een nieuw AI-programma om muziek te maken op basis van genres

mm
Bijgewerkt on

De onafhankelijke onderzoeksorganisatie OpenAI heeft onlangs een nieuwe vorm van generatieve AI genaamd uitgebracht Jukebox, zo genoemd vanwege zijn vermogen om muziek te genereren. De Jukebox AI kan geluiden genereren op basis van attributen zoals instrumentatie en zelfs songteksten, en het OpenAI-onderzoeksteam heeft de AI gemaakt door deze te trainen op gecomprimeerde audioclips en verschillende fragmenten van songteksten.

Als TechCrunch gerapporteerd, trainden de OpenAI-onderzoekers het model met behulp van onbewerkte audioclips, waardoor het model de mogelijkheid kreeg om audio te produceren. Dit staat in contrast met de benaderingen die worden gebruikt om andere toepassingen voor het genereren van muziek te maken, die vaak afhankelijk zijn van "symbolische muziek" (zoals MIDI-muziek), wat informatie is over noten en toonhoogtes, maar geen echte audio. Het team van onderzoekers gebruikte convolutionele neurale netwerken om het model te trainen, de audio te comprimeren en te coderen in een formaat dat het neurale netwerk kon interpreteren. Daarna werd een transformator gebruikt om gecomprimeerde audio te genereren, die werd geüpsampled om de gegevens om te zetten in een audioformaat.

Bij het maken van Jukebox moest OpenAI een methode creëren om met de complexe, dichte aard van audio om te gaan. De onderzoekers pakten het continue karakter van audio aan door het op te splitsen in meer discrete, verteerbare delen, nummers op te delen in stukjes van 1/128ste van een seconde. Het doel was om een ​​AI-model te maken dat in staat is om nummers op te splitsen in stukjes die groot genoeg zijn om het probleem niet onhandelbaar te maken, maar toch klein en precies genoeg zodat de modellen het patroon van een nummer kunnen leren en dat patroon kunnen reconstrueren.

De techniek die door OpenAI wordt gebruikt, heeft enkele overeenkomsten met een oudere AI van de muziekgeneratie die het bedrijf produceerde, genaamd MuseNet. MuseNet was getraind op MIDI-bestanden en was in staat om muziek in een groot aantal stijlen te genereren, hoewel het zich concentreerde op de algehele melodie van een nummer en geen songteksten kon produceren. Jukebox daarentegen kan zijn eigen teksten schrijven om de muziek te begeleiden. De songteksten zijn "mede-geschreven" door de OpenAI-onderzoekers, die het model begeleiden bij het maken van songteksten in bepaalde stijlen. Het Jukebox-systeem is getraind op songteksten die uit LyricWiki zijn geschraapt, waarbij de trainingsgegevens bestonden uit tekst en metadata van 1.2 miljoen nummers.

Als het gaat om de songtekst van het model, probeerden de onderzoekers eerst een eenvoudige heuristiek te gebruiken die de songtekst uitrekte tot ongeveer de duur van een nummer, waarbij de tekst werd geanalyseerd die overeenkwam met een bepaald stuk/segment van het nummer. Deze eenvoudige aanpak werkte over het algemeen goed, hoewel de onderzoekers ontdekten dat wanneer de teksten bijzonder snel waren, deze het begaven. Om dit probleem op te lossen, werden vocalen uit het nummer gehaald en uitgelijnd met de lyrische tekst om afstemming op woordniveau voor de songtekst te verkrijgen. Daarna werd een coderingslaag gebruikt voor de songteksten, samen met een aandachtslaag die delen van de muziek in kaart bracht met songteksten met behulp van sleutel-waardeparen. Het resultaat was dat songteksten en zang redelijk precies bij elkaar pasten.

De auteurs van de krant Merk ook op dat er verschillende beperkingen zijn die Jukebox heeft, en dat toekomstig werk gericht zal zijn op het verbeteren van het vermogen van de AI. Zoals de auteurs schrijven in een blog post:

“Hoewel Jukebox een stap voorwaarts vertegenwoordigt op het gebied van muzikale kwaliteit, coherentie, lengte van het audiofragment en het vermogen om af te stemmen op artiest, genre en songteksten, is er een aanzienlijke kloof tussen deze generaties en door mensen gecreëerde muziek. Terwijl de gegenereerde nummers bijvoorbeeld lokale muzikale samenhang vertonen, traditionele akkoordpatronen volgen en zelfs indrukwekkende solo's kunnen bevatten, horen we geen bekende grotere muzikale structuren zoals refreinen die zich herhalen.”

Op dit moment is het model in staat om een ​​nummer te produceren dat herkenbaar is in de stijl van een specifiek genre of zelfs een specifieke artiest. Het kan bijvoorbeeld nummers produceren in de stijl van Elvis Presley, Katy Perry of Rage Against the Machine. Hoewel de nummers herkenbaar binnen een genre vallen of een thema hebben rond de stijl van een zanger, zijn ze ook vrij ruig en klinken ze vaak als een parodie of een slechte coverversie van een nummer. Desalniettemin is de technische prestatie indrukwekkend. De onderzoekers die verantwoordelijk waren voor het creëren van het AI-generatiesysteem kozen ervoor om te werken aan een programma dat in staat is om muziek te genereren, met name omdat de taak moeilijk was, en de onderzoekers zijn van plan hun technieken te blijven verfijnen. Je kunt een aantal nummers beluisteren hier.

Blogger en programmeur met specialiteiten in Machine leren en Diepe leren onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor maatschappelijk welzijn.