Artificial Intelligence
Generatywna sztuczna inteligencja przekształcająca tekst na muzykę: stabilność dźwięku, Google MusicLM i nie tylko

Muzyka, forma sztuki, która rezonuje z ludzką duszą, jest stałym towarzyszem nas wszystkich. Tworzenie muzyki z wykorzystaniem sztucznej inteligencji rozpoczęło się kilkadziesiąt lat temu. Początkowo próby były proste i intuicyjne, a podstawowe algorytmy tworzyły monotonne melodie. Jednak wraz z rozwojem technologii wzrosła także złożoność i możliwości generatorów muzyki AI, torując drogę głębokiemu uczeniu się i przetwarzaniu języka naturalnego (NLP), które odegrają kluczową rolę w tej technologii.
Platformy takie jak Spotify wykorzystują obecnie sztuczną inteligencję do dostrajania wrażeń słuchowych swoich użytkowników. Te algorytmy głębokiego uczenia analizują indywidualne preferencje na podstawie różnych elementów muzycznych, takich jak tempo i nastrój, aby tworzyć spersonalizowane propozycje utworów. Analizują nawet szersze wzorce słuchania i przeszukują internet w poszukiwaniu dyskusji na temat utworów, aby tworzyć szczegółowe profile utworów.
Pochodzenie sztucznej inteligencji w muzyce: podróż od kompozycji algorytmicznej do modelowania generatywnego
Na wczesnych etapach miksowania sztucznej inteligencji w świecie muzycznym, od lat pięćdziesiątych do siedemdziesiątych XX wieku, skupiano się przede wszystkim na kompozycji algorytmicznej. Była to metoda, w której komputery używały określonego zestawu reguł do tworzenia muzyki. Pierwszym godnym uwagi dziełem tego okresu był Suita Illiac na kwartet smyczkowy w 1957 r. Wykorzystał algorytm Monte Carlo, proces wykorzystujący liczby losowe do dyktowania wysokości i rytmu w granicach tradycyjnej teorii muzyki i prawdopodobieństw statystycznych.
W tym czasie inny pionier, Iannis Xenakis, wykorzystał procesy stochastyczne, koncepcję obejmującą losowe rozkłady prawdopodobieństwa, do tworzenia muzyki. Korzystał z komputerów i FORTRAN język do łączenia wielu funkcji prawdopodobieństwa, tworząc wzór, w którym różne reprezentacje graficzne odpowiadają różnym przestrzeniom dźwiękowym.
Złożoność tłumaczenia tekstu na muzykę
Muzyka jest przechowywana w bogatym i wielowymiarowym formacie danych, który obejmuje takie elementy, jak melodia, harmonia, rytm i tempo, co sprawia, że tłumaczenie tekstu na muzykę jest bardzo złożone. Standardowy utwór jest reprezentowany przez prawie milion liczb w komputerze, czyli liczbę znacznie większą niż w przypadku innych formatów danych, takich jak obraz, tekst itp.
W dziedzinie generowania dźwięku obserwuje się innowacyjne podejścia do przezwyciężania wyzwań związanych z tworzeniem realistycznego dźwięku. Jedna z metod polega na wygenerowaniu spektrogramu, a następnie przekształceniu go z powrotem w dźwięk.
Inna strategia wykorzystuje symboliczną reprezentację muzyki, taką jak nuty, które muzycy mogą interpretować i grać. Ta metoda została pomyślnie zdigitalizowana dzięki narzędziom takim jak Magenta. Generator zespołu kameralnego tworzenie muzyki w formacie MIDI, czyli protokole ułatwiającym komunikację pomiędzy komputerami i instrumentami muzycznymi.
Chociaż podejścia te przyczyniły się do rozwoju tej dziedziny, mają swój własny zestaw ograniczeń, co podkreśla złożoną naturę generowania dźwięku.
Transformatoroparte na modelach autoregresyjnych i oparte na U-Net modele dyfuzyjne, są pionierami technologii, generując najnowocześniejsze (SOTA) rezultaty w zakresie generowania dźwięku, tekstu, muzyki i wielu innych. Seria GPT OpenAI i prawie wszystkie inne LLM-y są obecnie oparte na transformatorach wykorzystujących architekturę kodera, dekodera lub obie. Jeśli chodzi o grafikę i obraz, MidJourney, Stability AI i DALL-E 2 wykorzystują frameworki dyfuzyjne. Te dwie kluczowe technologie odegrały kluczową rolę w osiągnięciu wyników SOTA również w sektorze audio. W tym artykule przyjrzymy się bliżej technologiom Google MusicLM i Stable Audio, które stanowią dowód niezwykłych możliwości tych technologii.
MuzykaLM firmy Google
Aplikacja MusicLM firmy Google została wydana w maju tego roku. MusicLM potrafi generować utwory muzyczne o wysokiej jakości, które rezonują z emocjami opisanymi w tekście. Wykorzystując hierarchiczne modelowanie sekwencji, MusicLM potrafi przekształcać opisy tekstowe w muzykę rezonującą z częstotliwością 24 kHz przez dłuższy czas.
Model działa na poziomie wielowymiarowym, nie tylko trzymając się tekstu, ale także wykazując zdolność uzależniania się od melodii. Oznacza to, że może przyjąć nuconą lub gwizdaną melodię i przekształcić ją zgodnie ze stylem określonym w podpisie tekstowym.
Spostrzeżenia techniczne
MusicLM wykorzystuje zasady AudioLM, wprowadzone w 2022 r. ramy generowania dźwięku. AudioLM syntetyzuje dźwięk jako zadanie modelowania języka w dyskretnej przestrzeni reprezentacji, wykorzystując hierarchię dyskretnych jednostek audio od zgrubnej do dokładnej, znanych również jako tokeny. Takie podejście zapewnia wysoką wierność i długoterminową spójność przez znaczny okres czasu.
Aby ułatwić proces generowania, MusicLM rozszerza możliwości AudioLM, włączając warunkowanie tekstu, technikę, która dopasowuje wygenerowany dźwięk do niuansów tekstu wejściowego. Osiąga się to poprzez wspólną przestrzeń osadzania utworzoną przy użyciu MuLan, wspólnego modelu muzyki i tekstu przeszkolonego do wyświetlania muzyki i odpowiadających jej opisów tekstowych blisko siebie w przestrzeni osadzania. Strategia ta skutecznie eliminuje potrzebę stosowania napisów podczas szkolenia, umożliwiając szkolenie modelu na ogromnych korpusach zawierających wyłącznie dźwięk.
Model MusicLM również wykorzystuje Strumień dźwięku jako tokenizator audio, który może zrekonstruować muzykę 24 kHz przy 6 kb/s z imponującą wiernością, wykorzystując kwantyzacja wektorów resztkowych (RVQ) dla wydajnej i wysokiej jakości kompresji dźwięku.

Ilustracja procesu wstępnego uczenia MusicLM: SoundStream, w2v-BERT i Mulan | Źródło obrazu: w tym miejscu
Co więcej, MusicLM rozszerza swoje możliwości, umożliwiając warunkowanie melodii. Takie podejście gwarantuje, że nawet prosta nucona melodia może położyć podwaliny pod wspaniałe wrażenia słuchowe, dostosowane do dokładnych opisów tekstowych.
Twórcy MusicLM udostępnili także MusicCaps o otwartym kodzie źródłowym, zbiór danych zawierający 5.5 tys. par muzyki i tekstu, którym towarzyszą bogate opisy tekstowe opracowane przez ludzkich ekspertów. Możesz to sprawdzić tutaj: MusicCaps na przytulonej twarzy.
Gotowy do tworzenia ścieżek dźwiękowych opartych na sztucznej inteligencji za pomocą Google MusicLM? Oto jak zacząć:
- Odwiedź oficjalną stronę MusicLM i kliknij „Rozpocznij”.
- Dołącz do listy oczekujących, wybierając opcję „Zarejestruj swoje zainteresowanie”.
- Zaloguj się za pomocą swojego konta Google.
- Po przyznaniu dostępu kliknij „Wypróbuj teraz”, aby rozpocząć.
Poniżej znajduje się kilka przykładowych podpowiedzi, z którymi eksperymentowałem:
„Piosenka medytacyjna, uspokajająca i kojąca, z fletami i gitarami. Muzyka jest powolna i skupia się na tworzeniu poczucia spokoju i ciszy.”
„jazz z saksofonem”
W porównaniu z poprzednimi modelami SOTA, takimi jak Riffusion i Mubert, w ocenie jakościowej program MusicLM był preferowany bardziej niż inne, a uczestnicy pozytywnie ocenili zgodność podpisów tekstowych z 10-sekundowymi klipami audio.

Wydajność MusicLM, źródło obrazu: w tym miejscu
Stabilność dźwięku
W zeszłym tygodniu wprowadzono stabilność AI „Stabilny dźwięk„architektura modelu dyfuzji ukrytej, oparta na metadanych tekstowych oraz czasie trwania i momencie rozpoczęcia pliku audio. To podejście, podobnie jak w przypadku MusicLM firmy Google, pozwala na kontrolę nad treścią i długością generowanego dźwięku, umożliwiając tworzenie klipów audio o określonej długości, do rozmiaru okna treningowego.
Spostrzeżenia techniczne
Stable Audio składa się z kilku komponentów, w tym wariacyjnego autoenkodera (VAE) i modelu dyfuzji warunkowej opartego na U-Net, współpracującego z koderem tekstu.

Stabilna architektura audio, źródło obrazu: w tym miejscu
ZEA ułatwia szybsze generowanie i szkolenie poprzez kompresję dźwięku stereo do skompresowanego danych, odpornego na szumy i odwracalnego, stratnego, ukrytego kodowania, omijając potrzebę pracy z surowymi próbkami audio.
Koder tekstu wywodzący się z a KLASKAĆ model odgrywa kluczową rolę w zrozumieniu zawiłych relacji między słowami i dźwiękami, oferując informacyjną reprezentację tokenizowanego tekstu wejściowego. Osiąga się to poprzez wykorzystanie funkcji tekstowych z przedostatniej warstwy kodera tekstu CLAP, które są następnie integrowane z siecią U-Net poprzez warstwy wzajemnej uwagi.
Ważnym aspektem jest uwzględnienie osadzania taktowania, które jest obliczane na podstawie dwóch właściwości: sekundy początkowej fragmentu audio i całkowitego czasu trwania oryginalnego pliku audio. Wartości te, przełożone na dyskretne wyuczone osadzania na sekundę, są łączone z tokenami podpowiedzi i wprowadzane do warstw wzajemnej uwagi sieci U-Net, umożliwiając użytkownikom dyktowanie całkowitej długości wyjściowego dźwięku.
Model Stable Audio został przeszkolony przy użyciu obszernego zestawu danych zawierającego ponad 800,000 XNUMX plików audio we współpracy z dostawcą muzyki stockowej AudioSparx.
Stable Audio oferuje bezpłatną wersję, umożliwiającą 20 generacji utworów trwających do 20 sekund miesięcznie oraz plan Pro za 12 USD miesięcznie, umożliwiający 500 generacji utworów trwających do 90 sekund.
Poniżej znajduje się klip audio, który stworzyłem przy użyciu stabilnego dźwięku.
„Kinowy, ścieżka dźwiękowa: Delikatne opady deszczu, Nastrojowe, Kojące, Odległe szczekanie psów, Uspokajający szelest liści, Subtelny wiatr, 40 BPM”
Zastosowania tak doskonale wykonanych elementów audio są nieograniczone. Twórcy filmów mogą wykorzystać tę technologię do tworzenia bogatych i wciągających krajobrazów dźwiękowych. W sektorze komercyjnym reklamodawcy mogą wykorzystywać te dostosowane ścieżki audio. Co więcej, narzędzie to otwiera indywidualnym twórcom i artystom możliwości eksperymentowania i wprowadzania innowacji, oferując płótno o nieograniczonym potencjale do tworzenia utworów dźwiękowych, które opowiadają historie, wywołują emocje i tworzą atmosferę o głębi, która wcześniej była trudna do osiągnięcia bez znacznego budżetu lub ekspertyzę techniczną.
Podpowiadające wskazówki
Stwórz idealną ścieżkę dźwiękową, korzystając z podpowiedzi tekstowych. Oto krótki przewodnik, który pomoże Ci zacząć:
- Bądź szczegółowy: określ gatunki, nastroje i instrumenty. Na przykład: Filmowy, Dziki Zachód, Perkusyjny, Napięty, Atmosferyczny
- Ustawienie nastroju: Połącz terminy muzyczne i emocjonalne, aby przekazać pożądany nastrój.
- Wybór instrumentu: Wzbogać nazwy instrumentów przymiotnikami, np. „Gitara z pogłosem” lub „Potężny chór”.
- BPM: Dopasuj tempo do gatunku, aby uzyskać harmonijne brzmienie, np. „170 BPM” w przypadku ścieżki Drum and Bass.
Uwagi końcowe
W tym artykule zagłębiliśmy się w muzykę/audio generowane przez sztuczną inteligencję, od kompozycji algorytmicznych po zaawansowane, generatywne frameworki sztucznej inteligencji, takie jak Google MusicLM i Stability Audio. Technologie te, wykorzystujące głębokie uczenie i modele kompresji SOTA, nie tylko ulepszają generowanie muzyki, ale także dopracowują wrażenia słuchaczy.
Jest to jednak dziedzina podlegająca ciągłej ewolucji, z przeszkodami takimi jak utrzymanie długoterminowej spójności i ciągła debata na temat autentyczności muzyki stworzonej przez sztuczną inteligencję, która stanowi wyzwanie dla pionierów w tej dziedzinie. Zaledwie tydzień temu wszyscy mówili o piosence stworzonej przez sztuczną inteligencję nawiązującej do stylów Drake'a i The Weeknda, która początkowo pojawiła się w Internecie na początku tego roku. Groziło mu jednak usunięcie z listy nominacji do nagrody Grammy, co świadczy o toczącej się debacie na temat legalności w branży muzyki generowanej przez sztuczną inteligencję (źródło). Ponieważ sztuczna inteligencja w dalszym ciągu wypełnia luki między muzyką a słuchaczami, z pewnością promuje ekosystem, w którym technologia współistnieje ze sztuką, wspierając innowacje przy jednoczesnym poszanowaniu tradycji.