Spojte se s námi

Umělá inteligence

Generativní umělá inteligence pro převod textu na hudbu: Stability Audio, Google MusicLM a další

mm

Hudba, umělecká forma, která rezonuje s lidskou duší, je stálým společníkem nás všech. Vytváření hudby pomocí umělé inteligence začalo před několika desítkami let. Zpočátku byly pokusy jednoduché a intuitivní, se základními algoritmy vytvářejícími monotónní melodie. Jak se však technologie vyvíjela, rostla i složitost a možnosti hudebních generátorů AI, což připravilo půdu pro hluboké učení a zpracování přirozeného jazyka (NLP), které v této technologii hrají klíčovou roli.

Platformy jako Spotify dnes využívají umělou inteligenci k doladění poslechových zážitků svých uživatelů. Tyto algoritmy hlubokého učení rozebírají individuální preference na základě různých hudebních prvků, jako je tempo a nálada, a vytvářejí personalizované návrhy skladeb. Dokonce analyzují širší poslechové vzorce a prohledávají internet a hledají diskuse týkající se písní, aby vytvořily podrobné profily skladeb.

Původ umělé inteligence v hudbě: Cesta od algoritmické kompozice ke generativnímu modelování

V raných fázích míchání umělé inteligence v hudebním světě, od 1950. do 1970. let, se pozornost soustředila především na algoritmickou kompozici. Jednalo se o metodu, kdy počítače používaly k vytváření hudby definovanou sadu pravidel. První pozoruhodný výtvor v tomto období byl Illiac Suite pro smyčcové kvarteto v roce 1957. Používal algoritmus Monte Carlo, proces zahrnující náhodná čísla k diktování výšky tónu a rytmu v mezích tradiční hudební teorie a statistických pravděpodobností.

Obrázek vygenerovaný autorem pomocí Midjourney

Obrázek vygenerovaný autorem pomocí Midjourney

Během této doby další průkopník, Iannis Xenakis, využil stochastické procesy, koncept zahrnující náhodné rozdělení pravděpodobnosti, k vytvoření hudby. Používal počítače a FORTRAN jazyk pro spojení více pravděpodobnostních funkcí a vytvoření vzoru, kde různé grafické reprezentace odpovídaly různým zvukovým prostorům.

Složitost překladu textu do hudby

Hudba je uložena v bohatém a vícerozměrném formátu dat, který zahrnuje prvky, jako je melodie, harmonie, rytmus a tempo, což činí úkol převést text do hudby velmi složitým. Standardní skladba je v počítači reprezentována téměř milionem čísel, což je číslo výrazně vyšší než u jiných formátů dat, jako je obrázek, text atd.

Oblast generování zvuku je svědkem inovativních přístupů k překonání výzev vytváření realistického zvuku. Jedna metoda zahrnuje generování spektrogramu a jeho následnou konverzi zpět na zvuk.

Jiná strategie využívá symbolické znázornění hudby, například notového zápisu, který mohou hudebníci interpretovat a hrát. Tato metoda byla úspěšně digitalizována pomocí nástrojů, jako je Magenta Generátor komorního souboru vytváření hudby ve formátu MIDI, protokol, který usnadňuje komunikaci mezi počítači a hudebními nástroji.

I když tyto přístupy pokročily v oboru, přicházejí s vlastní sadou omezení, která podtrhují složitou povahu generování zvuku.

transformátorautoregresivní modely a U-Net difúzní modely, jsou v popředí technologií a produkují nejmodernější (SOTA) výsledky při generování zvuku, textu, hudby a mnoho dalšího. Řada GPT od OpenAI a téměř všechny ostatní LLM jsou v současné době poháněny transformátory využívajícími buď kodér, dekodér, nebo obě architektury. Na straně umění/obrazu využívají MidJourney, Stability AI a DALL-E 2 difúzní frameworky. Tyto dvě základní technologie byly klíčové pro dosažení výsledků SOTA i v audio sektoru. V tomto článku se ponoříme do MusicLM a Stable Audio od Googlu, které svědčí o pozoruhodných schopnostech těchto technologií.

Google MusicLM

Nástroj MusicLM od Googlu byl vydán v květnu letošního roku. MusicLM dokáže generovat vysoce věrné hudební skladby, které rezonují s přesným sentimentem popsaným v textu. Pomocí hierarchického modelování sekvencí po sekvenci dokáže MusicLM transformovat textové popisy do hudby, která rezonuje na frekvenci 24 kHz po delší dobu.

Model funguje na vícerozměrné úrovni, nejen že se drží textových vstupů, ale také demonstruje schopnost být podmíněn melodií. To znamená, že může vzít hučenou nebo pískanou melodii a transformovat ji podle stylu naznačeného v textovém titulku.

Technické postřehy

MusicLM využívá principy AudioLM, rámec představený v roce 2022 pro generování zvuku. AudioLM syntetizuje zvuk jako úlohu jazykového modelování v prostoru diskrétní reprezentace, využívá hierarchii hrubých až jemných zvukových diskrétních jednotek, známých také jako tokeny. Tento přístup zajišťuje vysokou věrnost a dlouhodobou soudržnost po dlouhou dobu.

Pro usnadnění procesu generování rozšiřuje MusicLM možnosti AudioLM o úpravu textu, což je technika, která sladí generovaný zvuk s nuancemi vstupního textu. Toho je dosaženo prostřednictvím sdíleného prostoru pro vkládání vytvořeného pomocí MuLan, společného hudebně-textového modelu vycvičeného k promítání hudby a jejích odpovídajících textových popisů blízko sebe v prostoru pro vkládání. Tato strategie účinně eliminuje potřebu titulků během tréninku, což umožňuje model trénovat na masivních pouze audio korpusech.

Model MusicLM také používá SoundStream jako jeho audio tokenizer, který dokáže rekonstruovat 24 kHz hudbu při 6 kbps s působivou věrností, kvantování zbytkového vektoru (RVQ) pro efektivní a vysoce kvalitní kompresi zvuku.

Ukázka nezávislého předtréninkového procesu pro základní modely MusicLM: SoundStream, w2v-BERT a MuLan,

Ilustrace předtréninkového procesu MusicLM: SoundStream, w2v-BERT a Mulan | Zdroj obrázku: zde

MusicLM navíc rozšiřuje své možnosti tím, že umožňuje úpravu melodie. Tento přístup zajišťuje, že i jednoduchá zabručená melodie může položit základ pro velkolepý poslechový zážitek, doladěný přesně podle textových popisů stylu.

Vývojáři MusicLM také vytvořili MusicCaps s otevřeným zdrojovým kódem, datovou sadu obsahující 5.5 XNUMX párů hudba-text, z nichž každý je doplněn bohatými textovými popisy vytvořenými lidskými odborníky. Můžete se na to podívat zde: MusicCaps na objímání obličeje.

Jste připraveni vytvářet soundtracky s umělou inteligencí pomocí služby MusicLM od Googlu? Zde je návod, jak začít:

  1. Navštivte oficiální web MusicLM a klikněte na „Začít“.
  2. Zapište se do pořadníku výběrem možnosti „Zaregistrujte svůj zájem“.
  3. Přihlaste se pomocí svého účtu Google.
  4. Po udělení přístupu začněte kliknutím na „Vyzkoušet“.

Níže je několik příkladů výzev, se kterými jsem experimentoval:

„Meditativní píseň, uklidňující a uklidňující, s flétnami a kytarami. Hudba je pomalá a zaměřuje se na vytvoření pocitu míru a klidu.“

“jazz se saxofonem”

Ve srovnání s předchozími modely SOTA, jako jsou Riffusion a Mubert v kvalitativním hodnocení, byl MusicLM preferován více než ostatní, přičemž účastníci příznivě hodnotili kompatibilitu textových titulků s 10sekundovými zvukovými klipy.

MusicLM Porovnání výkonu

MusicLM Performance, zdroj obrázku: zde

Stabilita Audio

Umělá inteligence stability minulý týden představena „Stabilní zvuk„architektura modelu latentní difúze podmíněná textovými metadaty spolu s délkou zvukového souboru a časem zahájení. Tento přístup, podobně jako Google MusicLM, má kontrolu nad obsahem a délkou generovaného zvuku, což umožňuje vytvářet zvukové klipy se zadanou délkou až do velikosti trénovacího okna.“

Technické postřehy

Stabilní zvuk se skládá z několika komponent, včetně variačního automatického kodéru (VAE) a modelu podmíněné difúze na bázi U-Net, které spolupracují s textovým kodérem.

Ilustrace znázorňující integraci variačního autokodéru (VAE), textového kodéru a modelu podmíněné difúze na bázi U-Net

Stabilní zvuková architektura, zdroj obrázku: zde

Jedno Běda usnadňuje rychlejší generování a trénování komprimací stereo zvuku do datově komprimovaného, ​​šumu odolného a invertovatelného ztrátového latentního kódování, čímž se vyhne nutnosti pracovat s nezpracovanými audio vzorky.

Textový kodér odvozený od a CLAP model, hraje klíčovou roli v porozumění složitým vztahům mezi slovy a zvuky a nabízí informativní reprezentaci tokenizovaného vstupního textu. Toho je dosaženo využitím textových funkcí z předposlední vrstvy textového kodéru CLAP, které jsou následně integrovány do difúzní U-Net prostřednictvím vrstev křížové pozornosti.

Důležitým aspektem je začlenění časování vložení, která se počítají na základě dvou vlastností: počáteční sekundy zvukového bloku a celkové doby trvání původního zvukového souboru. Tyto hodnoty, převedené do diskrétních naučených vložení za sekundu, jsou kombinovány s tokeny výzvy a vloženy do vrstev křížové pozornosti U-Net, což uživatelům umožňuje diktovat celkovou délku výstupního zvuku.

Model Stable Audio byl trénován s využitím rozsáhlé datové sady více než 800,000 XNUMX zvukových souborů ve spolupráci s poskytovatelem hudby AudioSparx.

Stabilní audio reklamy

Stabilní audio reklamy

Stable Audio nabízí bezplatnou verzi, která umožňuje 20 generací až 20sekundových stop za měsíc, a plán Pro za 12 $/měsíc, umožňující 500 generací až 90sekundových stop.

Níže je zvukový klip, který jsem vytvořil pomocí stabilního zvuku.

Obrázek vygenerovaný autorem pomocí Midjourney

Obrázek vygenerovaný autorem pomocí Midjourney

“Kinematografie, Soundtrack Jemný déšť, Ambient, Uklidňující, Vzdálené štěkání psů, Uklidňující šelest listů, Jemný vítr, 40 BPM”

Aplikace takto jemně zpracovaných zvukových kousků jsou nekonečné. Filmaři mohou tuto technologii využít k vytvoření bohatých a pohlcujících zvukových scén. V komerčním sektoru mohou inzerenti využít tyto na míru šité zvukové stopy. Tento nástroj navíc otevírá možnosti pro jednotlivé tvůrce a umělce k experimentování a inovaci, nabízí plátno s neomezeným potenciálem k vytváření zvukových děl, která vyprávějí příběhy, evokují emoce a vytvářejí atmosféru s hloubkou, které bylo dříve těžké dosáhnout bez značného rozpočtu. nebo technické znalosti.

Vyzývavé tipy

Vytvořte si perfektní zvuk pomocí textových pokynů. Zde je stručný návod, jak začít:

  1. Buďte podrobní: Určete žánry, nálady a nástroje. Například: Cinematic, Wild West, Percussion, Tense, Atmospheric
  2. Nastavení nálady: Kombinujte hudební a emocionální pojmy, abyste vyjádřili požadovanou náladu.
  3. Volba nástroje: Vylepšení názvů nástrojů přídavnými jmény, jako „Reverberated Guitar“ nebo „Powerful Choir“.
  4. BPM: Přizpůsobte tempo žánru pro harmonický výstup, například „170 BPM“ pro stopu Drum and Bass.

Závěrečné poznámky

Obrázek vygenerovaný autorem pomocí Midjourney

Obrázek vygenerovaný autorem pomocí Midjourney

V tomto článku jsme se ponořili do hudby/zvuku generovaného umělou inteligencí, od algoritmických skladeb až po sofistikované generativní frameworky umělé inteligence, jako jsou MusicLM od Googlu a Stability Audio. Tyto technologie, využívající modely hlubokého učení a komprese SOTA, nejen vylepšují generování hudby, ale také dolaďují zážitky posluchačů.

Přesto je to doména, která se neustále vyvíjí, s překážkami, jako je udržení dlouhodobé soudržnosti a pokračující debata o autenticitě hudby vytvořené umělou inteligencí, která zpochybňuje průkopníky v této oblasti. Zrovna před týdnem se rozruch točil kolem písně vytvořené umělou inteligencí ve stylu Drakea a The Weeknda, která na začátku tohoto roku poprvé vzplanula online. Čelilo však vyřazení ze seznamu nominací na Grammy, což předvádělo pokračující debatu o legitimitě hudby generované umělou inteligencí v tomto odvětví (zdroj). Umělá inteligence pokračuje v přemosťování propastí mezi hudbou a posluchači a jistě podporuje ekosystém, kde technologie koexistuje s uměním, podporuje inovace a zároveň respektuje tradice.

Posledních pět let jsem strávil ponořením se do fascinujícího světa strojového učení a hlubokého učení. Moje vášeň a odborné znalosti mě vedly k tomu, abych se podílel na více než 50 různých projektech softwarového inženýrství se zvláštním zaměřením na AI/ML. Moje neustálá zvědavost mě také přivedla ke zpracování přirozeného jazyka, což je obor, který bych rád dále prozkoumal.