výhonek OpenAI vytváří nový program umělé inteligence pro vytváření hudby založené na žánrech – Unite.AI
Spojte se s námi

Umělá inteligence

OpenAI vytváří nový program umělé inteligence pro vytváření hudby na základě žánrů

mm
aktualizováno on

Nezávislá výzkumná organizace OpenAI nedávno vydala novou formu generativní umělé inteligence Hudební automat, pojmenovaný jako takový kvůli jeho schopnosti generovat hudbu. Umělá inteligence Jukeboxu je schopna generovat zvuky na základě atributů, jako je instrumentace a dokonce i texty, a výzkumný tým OpenAI vytvořil AI tak, že ji trénoval na komprimovaných zvukových klipech a různých úryvcích textů.

Jako TechCrunch hlášeny, výzkumníci OpenAI trénovali model pomocí nezpracovaných zvukových klipů, což modelu dalo schopnost produkovat zvuk. To je v kontrastu s přístupy používanými k vytváření jiných aplikací pro generování hudby, které často spoléhají na „symbolickou hudbu“ (jako je hudba MIDI), což jsou informace o notách a výškách, ale žádný skutečný zvuk. Tým výzkumníků využil konvoluční neuronové sítě k trénování modelu, komprimaci zvuku a jeho kódování do formátu, který neuronová síť dokáže interpretovat. Poté byl ke generování komprimovaného zvuku použit transformátor, který byl převzorkován, aby se data převedla do zvukového formátu.

Při vytváření Jukeboxu muselo OpenAI vytvořit metodu, jak se vypořádat se složitou a hustou povahou zvuku. Výzkumníci se vypořádali s kontinuální povahou zvuku tak, že jej rozdělili do diskrétnějších, stravitelných sekcí a rozdělili skladby na bity dlouhé 1/128 sekundy. Cílem bylo vytvořit model umělé inteligence schopný rozdělit skladby na dostatečně velké části, aby se problém nestal neřešitelným, ale zároveň dostatečně malý a přesný, aby se modely mohly naučit vzorec písně a tento vzorec rekonstruovat.

Technika používaná OpenAI sdílí některé společné rysy se starší hudební generací AI, kterou společnost vyrobila, tzv MuseNet. MuseNet byl trénován na MIDI souborech a byl schopen generovat hudbu v mnoha stylech, i když se soustředil na celkovou melodii písně a nedokázal vytvořit text. Oproti tomu Jukebox je schopen si k hudbě napsat vlastní texty. Texty jsou „spolupsány“ výzkumníky OpenAI, což model vede k vytváření textů v určitých stylech. Systém Jukebox byl trénován na textech převzatých z LyricWiki, přičemž trénovací data sestávala z textu a metadat o 1.2 milionu skladeb.

Pokud jde o text modelu, vědci nejprve zkusili použít jednoduchou heuristiku, která natáhla texty zhruba na dobu trvání písně a analyzovala text, který odpovídal konkrétnímu kusu/segmentu písně. Tento jednoduchý přístup obecně fungoval dobře, i když výzkumníci zjistili, že když byly texty obzvláště rychlé, rozpadly se. Aby se tento problém vyřešil, byly z písně extrahovány vokály a zarovnány s textem písně, aby se získalo zarovnání na úrovni slov pro text. Poté byla pro texty použita vrstva kódování spolu s vrstvou pozornosti, která mapovala části hudby na texty pomocí párů klíč-hodnota. Výsledkem bylo, že texty a vokály měly poměrně přesnou shodu.

Autoři papír Všimněte si také, že Jukebox má několik omezení a že budoucí práce se zaměří na zlepšení schopností AI. Jak píšou autoři v blogu:

„Zatímco Jukebox představuje krok vpřed v hudební kvalitě, soudržnosti, délce zvukové ukázky a schopnosti přizpůsobit se umělci, žánru a textu, mezi těmito generacemi a hudbou vytvořenou člověkem je značná propast. Například, zatímco vytvořené písně vykazují místní hudební soudržnost, sledují tradiční akordové vzorce a mohou dokonce obsahovat působivá sóla, neslyšíme známé větší hudební struktury, jako jsou refrény, které se opakují.“

Právě teď je model schopen produkovat skladbu, která je rozpoznatelná ve stylu konkrétního žánru nebo dokonce konkrétního umělce. Dokáže produkovat například skladby ve stylu Elvise Presleyho, Katy Perry, nebo Rage Against the Machine. Ačkoli jsou písně rozeznatelné v rámci žánru nebo tematicky zaměřené na zpěvákův styl, jsou také poměrně drsné, často zní jako parodie nebo špatná cover verze písně. Nicméně technický pokrok je působivý. Výzkumníci zodpovědní za vytvoření systému generování AI se rozhodli pracovat na programu schopném generovat hudbu specificky, protože úkol byl obtížný a výzkumníci plánují pokračovat ve zdokonalování svých technik. Některé písničky si můžete poslechnout zde.