csonk Az OpenAI új mesterségesintelligencia-programot hoz létre zenei műfajok alapján - Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

Az OpenAI új mesterséges intelligencia-programot hoz létre zenei műfajok alapján

mm
korszerűsített on

Az OpenAI független kutatószervezet a közelmúltban kiadta a generatív mesterséges intelligencia új formáját wurlitzer, amelyet zenegeneráló képessége miatt neveztek el. A Jukebox AI olyan tulajdonságok alapján képes hangokat generálni, mint a hangszerelés, sőt a dalszöveg is, az OpenAI kutatócsoportja pedig úgy hozta létre az AI-t, hogy tömörített hangklipekre és különféle dalszövegrészletekre tanította.

Mint TechCrunch jelentett, az OpenAI kutatói nyers hangfelvételek segítségével képezték ki a modellt, így a modell képes hangot előállítani. Ez ellentétben áll azokkal a megközelítésekkel, amelyeket más zenegeneráló alkalmazások létrehozására használnak, amelyek gyakran „szimbolikus zenére” (mint például a MIDI zenére) támaszkodnak, amely információ a hangjegyekről és a hangmagasságokról, de nem a tényleges hangról. A kutatócsoport konvolúciós neurális hálózatokat használt a modell betanításához, tömörítette a hangot, és olyan formátumba kódolta, amelyet a neurális hálózat értelmezni tudott. Ezt követően egy transzformátort használtak a tömörített hang előállítására, amelyet fel mintavételeztek, hogy az adatokat audio formátumba konvertálják.

A Jukebox létrehozásakor az OpenAI-nak meg kellett alkotnia egy módszert a hang összetett, sűrű természetének kezelésére. A kutatók úgy foglalkoztak a hang folyamatos természetével, hogy diszkrétebb, emészthetőbb részekre bontották, a dalokat pedig 1/128 másodperc hosszúságú bitekre osztották fel. A cél egy olyan mesterséges intelligencia modell létrehozása volt, amely képes a dalokat elég nagy darabokra bontani ahhoz, hogy a probléma ne váljon megoldhatatlanná, ugyanakkor elég kicsi és precíz ahhoz, hogy a modellek megtanulják egy dal mintáját, és rekonstruálják azt.

Az OpenAI által használt technika közös vonásokkal rendelkezik egy régebbi zenei generációs mesterséges intelligenciával, amelyet a cég készített MuseNet. A MuseNet MIDI-fájlokra lett kiképezve, és képes volt számos stílusban zenét generálni, bár a dal általános dallamára összpontosított, és nem tudott szöveget produkálni. Ezzel szemben a Jukebox képes saját dalszövegeket írni a zenéhez. A dalszövegeket az OpenAI kutatói „társírják”, így a modellt bizonyos stílusú dalszövegek létrehozása felé irányítják. A Jukebox rendszert a LyricWikiből kimásolt dalszövegekre képezték ki, a betanítási adatok 1.2 millió dal szövegéből és metaadataiból álltak.

Ami a modell szövegét illeti, a kutatók először egy egyszerű heurisztikát próbáltak használni, amely nagyjából egy dal időtartamára nyújtja a szöveget, és elemezték azt a szöveget, amely megfelelt a dal egy bizonyos részének/szegmensének. Ez az egyszerű megközelítés általában jól működött, bár a kutatók azt találták, hogy amikor a dalszövegek különösen gyorsak voltak, az összeomlott. A probléma megoldása érdekében az énekhangokat kivonták a dalból, és a dalszöveghez igazították, hogy szószintű igazítást kapjanak a dalszövegek. Ezt követően egy kódoló réteget használtak a dalszövegekhez, valamint egy figyelemfelkeltő réteget, amely kulcs-érték párok segítségével leképezte a zene egyes részeit a dalszövegekre. Az eredmény az volt, hogy a szöveg és az ének meglehetősen pontosan illeszkedett.

A a papír Vegye figyelembe azt is, hogy a Jukeboxnak számos korlátozása van, és a jövőbeni munka célja az AI képességének javítása. Ahogy a szerzők írják Egy blogbejegyzésben:

„Míg a Jukebox előrelépést jelent a zenei minőségben, koherenciában, a hangminta hosszában, valamint az előadótól, műfajtól és dalszövegtől való függésben, jelentős szakadék tátong e generációk és az ember által létrehozott zene között. Például míg a generált dalok helyi zenei koherenciát mutatnak, hagyományos akkordmintákat követnek, és akár lenyűgöző szólókat is tartalmazhatnak, nem hallunk olyan ismerős nagyobb zenei struktúrákat, mint például az ismétlődő refrének.”

Jelenleg a modell képes olyan dalt produkálni, amely felismerhetően egy adott műfaj vagy akár egy adott előadó stílusában van. Például Elvis Presley, Katy Perry vagy a Rage Against the Machine stílusában tud dalokat produkálni. Bár a dalok felismerhetően egy műfajon belüliek, vagy egy énekes stílusa köré épülnek, meglehetősen durvák is, gyakran úgy hangzanak, mint egy paródia vagy egy dal rossz feldolgozása. Ennek ellenére a technikai teljesítmény lenyűgöző. A mesterséges intelligencia-generáló rendszer megalkotásáért felelős kutatók kifejezetten a nehéz feladat miatt döntöttek úgy, hogy egy olyan programmal dolgoznak, amely képes zenét generálni, és a kutatók azt tervezik, hogy folytatják technikáik finomítását. Néhány dalt meghallgathat itt.

Blogger és programozó szakterületekkel Gépi tanulás és a Deep Learning témákat. Daniel abban reménykedik, hogy segíthet másoknak az AI erejét társadalmi javára használni.