Umelá inteligencia

OpenAI vytvára nový program AI na vytváranie hudby na základe žánrov

Aktualizované on Decembra 9, 2022

Nezávislá výskumná organizácia OpenAI nedávno vydala novú formu generatívnej AI s názvom hudobný automat, pomenovaný ako taký vďaka svojej schopnosti generovať hudbu. Jukebox AI dokáže generovať zvuky na základe atribútov, ako je inštrumentácia a dokonca aj texty, a výskumný tím OpenAI vytvoril AI tak, že ju trénoval na komprimovaných zvukových klipoch a rôznych úryvkoch textov.

Ako TechCrunch hlásené, výskumníci OpenAI trénovali model pomocou nespracovaných zvukových klipov, čo dáva modelu schopnosť produkovať zvuk. To je v kontraste s prístupmi používanými na vytváranie iných aplikácií na generovanie hudby, ktoré sa často spoliehajú na „symbolickú hudbu“ (ako je hudba MIDI), čo sú informácie o notách a výškach, ale nie skutočný zvuk. Tím vedcov využil konvolučné neurónové siete na trénovanie modelu, kompresiu zvuku a jeho kódovanie do formátu, ktorý dokáže neurónová sieť interpretovať. Potom sa na generovanie komprimovaného zvuku použil transformátor, ktorý sa prevzorkoval, aby sa údaje previedli do zvukového formátu.

Pri vytváraní Jukeboxu musel OpenAI vytvoriť metódu, ako sa vysporiadať so zložitou a hustou povahou zvuku. Výskumníci sa zaoberali kontinuálnou povahou zvuku tak, že ho rozdelili na diskrétnejšie, stráviteľnejšie časti a rozdelili skladby na kúsky, ktoré sú dlhé 1/128 sekundy. Cieľom bolo vytvoriť model umelej inteligencie schopný rozložiť skladby na dostatočne veľké časti, aby sa problém nestal neriešiteľným, ale zároveň dostatočne malý a presný, aby sa modely mohli naučiť vzor piesne a rekonštruovať tento vzor.

Technika používaná OpenAI zdieľa niektoré spoločné črty so staršou hudobnou generáciou AI, ktorú spoločnosť vyrobila, tzv MuseNet. MuseNet bol trénovaný na MIDI súboroch a bol schopný generovať hudbu v mnohých štýloch, hoci sa sústredil na celkovú melódiu piesne a nedokázal vytvoriť text. Naproti tomu Jukebox je schopný napísať vlastný text, ktorý bude hudbu sprevádzať. Texty sú „spolupísané“ výskumníkmi OpenAI, čo vedie model k vytváraniu textov v určitých štýloch. Systém Jukebox bol trénovaný na textoch zoškrabaných z LyricWiki, pričom trénovacie údaje pozostávali z textu a metadát o 1.2 miliónoch skladieb.

Pokiaľ ide o text modelu, výskumníci sa najprv pokúsili použiť jednoduchú heuristiku, ktorá natiahla texty približne na trvanie piesne a analyzovala text, ktorý zodpovedal konkrétnemu kúsku/segmentu piesne. Tento jednoduchý prístup vo všeobecnosti fungoval dobre, hoci výskumníci zistili, že keď boli texty obzvlášť rýchle, pokazili sa. Aby sa tento problém vyriešil, vokály boli extrahované z piesne a zarovnané s lyrickým textom, aby sa získali zarovnania textu na úrovni slov. Potom bola pre texty použitá vrstva kódovania spolu s vrstvou pozornosti, ktorá mapovala časti hudby na texty pomocou párov kľúč-hodnota. Výsledkom bolo, že texty a vokály mali pomerne presný súlad.

Autori papier Všimnite si tiež, že Jukebox má niekoľko obmedzení a že budúca práca bude zameraná na zlepšenie schopností AI. Ako píšu autori v blogu:

„Hoci Jukebox predstavuje krok vpred v hudobnej kvalite, koherencii, dĺžke zvukovej ukážky a schopnosti prispôsobiť sa interpretovi, žánru a textom, medzi týmito generáciami a hudbou vytvorenou ľuďmi je značná priepasť. Napríklad, zatiaľ čo generované piesne vykazujú miestnu hudobnú koherenciu, sledujú tradičné akordové vzory a môžu dokonca obsahovať pôsobivé sóla, nepočujeme známe väčšie hudobné štruktúry, ako sú napríklad refrény, ktoré sa opakujú.“

Práve teraz je model schopný produkovať pieseň, ktorá je rozpoznateľná v štýle konkrétneho žánru alebo dokonca konkrétneho umelca. Dokáže produkovať napríklad skladby v štýle Elvisa Presleyho, Katy Perry, či Rage Against the Machine. Hoci piesne sú rozpoznateľné v rámci žánru alebo sú tematicky zamerané na štýl speváka, sú tiež dosť drsné a často znejú ako paródia alebo slabá cover verzia piesne. Technický výkon je však pôsobivý. Výskumníci zodpovední za vytvorenie systému generovania AI sa rozhodli pracovať na programe schopnom generovať hudbu špecificky, pretože úloha bola náročná a výskumníci plánujú pokračovať v zdokonaľovaní svojich techník. Niektoré skladby si môžete vypočuť tu.