Connect with us

Google představuje model AI hudby, který vytváří rychleji než přehrává

Umělá inteligence

Google představuje model AI hudby, který vytváří rychleji než přehrává

mm

Představte si následující situaci: hudebník sedí u počítače a místo toho, aby skládal notu po notě, řídí spolupracovníka AI během živého výkonu – mění žánry, kombinuje nástroje a prozkoumává zvukové území, která existují mezi etablovanými hudebními styly. To se děje nyní s Google’s Magenta RealTime (RT), otevřeným modelem, který přináší interaktivitu v reálném čase do generace AI hudby.

Právě vydán, Magenta RT nás nutí měnit způsob, jakým přemýšlíme o hudbě generované AI. Na rozdíl od předchozích modelů, které vyžadovaly, aby uživatelé čekali na kompletní skladby, Magenta RT generuje hudbu rychleji, než se přehrává, umožňující skutečnou interaktivitu v reálném čase. Pro hudební průmysl – který již zápasí s disruptivní vlivem AI – tato technologie otevírá dveře zcela novým formám tvořivého vyjádření, zatímco vyvolává hluboké otázky o autorství, výkonu a budoucnosti lidského hudebnictví.

Pochopení Magenta RealTime

V jádru je Magenta RT modelem autoregresivního transformátoru s 800 miliony parametrů, ale co jej odlišuje, je jeho přístup k výzvě generace v reálném čase. Model generuje kontinuální proudy hudby v 2sekundových blocích, každý podmíněný předchozích 10 sekundách audio výstupu a dynamicky nastavitelným stylem vložením. Tato architektura umožňuje hudebníkům manipulovat stylem vložením v reálném čase, efektivní řídící hudební výstup, jak se vyvíjí.

Technický úspěch zde nelze přehlédnout. Na volném Google Colab TPU generuje Magenta RT 2 sekundy audio za pouhých 1,25 sekundy – reálný faktor 1,6. Tato rychlost je umožněna několika inovacemi:

  • Block Autoregression: Místo generování celých skladeb najednou model pracuje v malých, zpracovatelných blocích, které lze rychle zpracovat
  • SpectroStream Codec: Nástupce SoundStream, který umožňuje high-fidelity 48kHz stereo audio
  • MusicCoCa Embeddings: Nový společný hudební-textový model vložením, který umožňuje semantickou kontrolu nad procesem generace

Co dělá toto zvlášť působivé, je, že na rozdíl od API-založených řešení nebo modelů generace orientovaných na dávky, Magenta RT podporuje streaming syntézu s faktorem reálného času větší než 1. To znamená, že model může skutečně předehnat přehrávání, vytváří buffer, který zajišťuje plynulý, nepřerušený hudební tok.

Od pasivní generace k aktivnímu výkonu

Důsledky generace AI hudby v reálném čase sahají daleko za technické specifikace. Jak tým Magenta poznamenává, “Live interakce vyžaduje více od hráče, ale může nabídnout více v návratu. Kontinuální smyčka vnímání-akce mezi člověkem a modelem poskytuje přístup k tvořivému toku, zaměřující se na zkušenost na radost z procesu spíše než na konečný produkt.”

Tento posun od pasivní k aktivní účastí řeší jednu z primárních kritik obsahu generovaného AI: jeho potenciál zaplavit trh hudbou bez duše, masově vyráběnou. Modely v reálném čase “přirozeně tránhají vytváření přílivu pasivního obsahu, protože intrinsicky vyvažují poslech s generací v poměru 1:1”. Každý okamžik vytvořené hudby vyžaduje okamžik lidské pozornosti a rozhodování.

Zvažte možnosti, které toto otevírá:

  • Live Performance: DJ a elektroničtí hudebníci mohou začlenit AI jako responsivní nástroj do svých setů, přidávající k expandující sadě AI nástrojů pro hudebníky, které rather než nahrazují lidskou tvořivost
  • Interaktivní instalace: Umělci mohou vytvářet prostředí, kde hudba reaguje na pohyb publika nebo environmentální faktory
  • Vzdělávací nástroje: Studenti mohou prozkoumávat hudební koncepty prostřednictvím okamžité, hmatatelné zpětné vazby
  • Herní soundtracky: Dynamické skóre, které se přizpůsobují akcím hráče v reálném čase

Disrupce a příležitost

Hudební průmysl stojí na křižovatce. Tržby v hudebním průmyslu by se měly zvýšit o 17,2 %, částečně poháněné hudbou generovanou AI, s globálním trhem AI hudby ve výši 2,9 miliardy dolarů v roce 2024. Nicméně tento růst přichází s významnými obavami ze strany umělců a odborníků z průmyslu.

Výzkum Goldmedia předpovídá, že bez řádných kompenzačních systémů by mohli hudebníci ztratit až 27 % svých příjmů do roku 2028, jakmile se bude rozšiřovat obsah generovaný AI. Strach je zřetelný – bude AI nahrazovat lidské hudebníky? Bude hodnota lidské tvořivosti snížena ve světě, kde kdokoli může generovat profesionálně znějící hudbu?

Magenta RT nabízí nuancované odpovědi na tyto obavy. Postavením se jako otevřený zdroj, který rather než nahrazuje lidskou tvořivost, poskytuje model pro to, jak AI a hudebníci mohou koexistovat. Požadavek na vstup v reálném čase zajišťuje, že technologie zvyšuje lidskou tvořivost spíše než funguje autonomně.

Demokratizace vs. devalvace

Jedním z nejvýznamnějších dopadů Magenta RT je jeho potenciál demokratizovat tvorbu hudby. Model je navržen tak, aby nakonec běžel na spotřebitelském hardwaru a již je funkční na volném Google Colab TPU. Tato dostupnost znamená, že aspirující hudebníci bez drahého vybavení nebo formálního vzdělávání mohou experimentovat s komplexními hudebními nápady, připojující se k rostoucímu ekosystému AI generátorů hudby, které transformují tvořivé pracovní postupy.

Nicméně tato demokratizace přichází s riziky. Jak skladatel Mark Henry Phillips poznamenává ve svých experimentech s generací AI hudby, podezřívá, že “brzy již nebude moci vydělávat na živobytí jako hudebník, protože společnosti začnou přímo využívat tuto technologii”. Snadnost, s níž AI může generovat komerčně kvalitní hudbu, ohrožuje tradiční příjmové prameny pro profesionální hudebníky.

Nicméně existuje jiný pohled, který lze zvažovat. Stejně jako digitální fotografie neeliminovala profesionální fotografy, ale změnila povahu jejich práce, generace AI hudby může spíše přetvořit než nahradit hudební kariéry. Klíč leží v tom, jak hudebníci přizpůsobují a integrují tyto nástroje do svého tvořivého procesu.

Růst generace AI hudby v reálném čase také přináší naléhavé etické otázky do popředí. Autorská práva, vlastnictví a spravedlivá kompenzace zůstávají spornými otázkami. 90 % hudebníků se domnívá, že společnosti AI by měly žádat o povolení před použitím chráněné hudby pro školení, zdůrazňující napětí mezi technologickou inovací a uměleckými právy.

Otevřený přístup Magenta RT nabízí jednu potenciální cestu vpřed. Zprovozněním technologie zdarma a školením na přibližně 190 000 hodinách instrumentální stock hudby z více zdrojů se Google pokusil vyhnout některým autorským obavám, zatímco stále produkuje schopný model.

Omezení modelu také odrážejí etické úvahy. Zatímco je schopen generovat nelexikální vokalizace a humming, Magenta RT není podmíněný texty a je nepravděpodobné, že vygeneruje skutečné slova. Tento designový výběr pomáhá vyhnout se potenciálním problémům s generováním nevhodného lyrického obsahu, zatímco se zaměřuje na instrumentální kompozici.

Budoucnost lidsko-AI hudební spolupráce

Jak stojíme na prahu této nové éry v tvorbě hudby, několik trendů se objevuje:

  1. Hybridní modely tvorby: Rather než nahrazovat hudebníky, nástroje jako Magenta RT se stávají spolupracovníky. Poslední vývoj v systémech sledování beatu se zero latencí a vylepšenou ovladatelností ukazuje, jak AI může synchronizovat s lidskými performery v reálném čase.
  2. Nové performanční paradigma: Koncept “výkonu” s AI otevírá zcela nové umělecké možnosti. Hudebníci se učí “hrát” na tyto systémy jako na nástroje, vyvíjejí techniky pro vynucení specifických zvuků a navigaci latentních hudebních prostorů.
  3. Vzdělávací revoluce: Technologie generace AI hudby revolucionalizovala hudební vzdělávání, s platformami, které poskytují interaktivní zkušenosti, které poslouchají výkony uživatelů a nabízejí okamžitou zpětnou vazbu.Technická konvergence: S inovacemi v neurálních audio kodecích a optimalizovaných architekturách, nástroje jako MusicFX DJ mohou nyní streamovat produkční kvalitní 48kHz stereo audio v reálném čase, přivádějící hudbu generovanou AI na profesionální kvalitativní standardy.

Přijetí spolupracující budoucnosti

Magenta RealTime nabízí pohled do budoucnosti, kde hranice mezi lidskou a strojovou tvořivostí se stávají stále více tekutými. Vyžadováním vstupu v reálném čase a zaměřením se na proces spíše než na výstup, nabízí model pro AI, který zvyšuje spíše než nahrazuje lidskou tvořivost.

Otevřená povaha technologie a dostupnost na spotřebitelském hardwaru demokratizují tvorbu hudby, zatímco omezení reálného času zajišťují, že lidská agentura zůstává centrální v tvořivém procesu. Jak tým Magenta zdůrazňuje, zvyšování lidské tvořivosti – ne její nahrazování – bylo vždy v jádru jejich mise.

Pro hudebníky, producenty a milovníky hudby je zpráva jasná: budoucnost hudby spočívá nejen ve volbě mezi lidskou nebo AI tvorbou, ale ve zkoumání rozsáhlých tvořivých možností, které vznikají, když obě spolupracují v reálném čase. Magenta RT je pozvánkou k přeimaginování toho, co může být tvorba hudby v éře AI.

Jak postupujeme, hudební průmysl musí řešit důležité otázky o spravedlivé kompenzaci, autorských právech a hodnotě lidské tvořivosti. Ale pokud nástroje jako Magenta RT jsou jakýmkoli ukazatelem, budoucnost hudby bude jednou z spolupráce, experimentů a nových forem vyjádření, které jsme teprve začali představovat.

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s mnoha AI startupy a publikacemi po celém světě.