Sztuczna inteligencja

Stability AI prezentuje Stable Audio 2.0: Wspieranie twórców zaawansowanym audio generowanym przez sztuczną inteligencję

Published April 3, 2024

Updated April 27, 2026

Alex McFarland

Stability AI ponownie przekroczyła granice innowacji, wydając Stable Audio 2.0. Ten przełomowy model opiera się na sukcesie swojego poprzednika, wprowadzając szereg przełomowych funkcji, które obiecują rewolucjonizować sposób, w jaki artyści i muzycy tworzą i manipulują treściami audio.

Stable Audio 2.0 reprezentuje znaczący kamień milowy w ewolucji audio generowanego przez sztuczną inteligencję, ustanawiając nowy standard jakości, wszechstronności i potencjału twórczego. Dzięki możliwości generowania pełnych utworów, transformacji próbek audio przy użyciu naturalnych poleceń językowych oraz wytwarzaniu szerokiej gamy efektów dźwiękowych, ten model otwiera świat możliwości dla twórców treści w różnych branżach.

Ponieważ popyt na innowacyjne rozwiązania audio ciągle rośnie, najnowsza oferta Stability AI jest gotowa stać się niezastąpionym narzędziem dla profesjonalistów, którzy szukają sposobów na poprawę swojej twórczości i usprawnienie workflow. Wykorzystując moc zaawansowanej technologii sztucznej inteligencji, Stable Audio 2.0 upoważnia użytkowników do eksplorowania niezbadanych terytoriów w kompozycji muzycznej, projektowaniu dźwięku i postprodukcji audio.

Jakie są kluczowe funkcje Stable Audio 2.0

Stable Audio 2.0 posiada imponujący zestaw funkcji, które mogą zmienić krajobraz audio generowanego przez sztuczną inteligencję. Od generowania pełnych utworów po transformację audio-audio, wzmocnioną produkcję efektów dźwiękowych i transfer stylu, ten model zapewnia twórcom kompletny zestaw narzędzi do przywoływania ich wizji dźwiękowych do życia.

Generowanie pełnych utworów

Stable Audio 2.0 wyróżnia się spośród innych modeli audio generowanego przez sztuczną inteligencję możliwością tworzenia pełnych utworów o długości do trzech minut. Te kompozycje nie są po prostu wydłużonymi fragmentami, ale raczej ustrukturyzowanymi utworami, które zawierają wyraźne sekcje, takie jak intro, rozwinięcie i outro. Ta funkcja pozwala użytkownikom generować kompletne dzieła muzyczne z spójną narracją i progresją, podnosząc potencjał dla tworzenia muzyki wspomaganego przez sztuczną inteligencję.

Ponadto model ten zawiera efekty dźwiękowe stereo, dodając głębię i wymiar generowanemu audio. Ten dodatek elementów przestrzennych jeszcze bardziej podnosi realizm i jakość immersyjną utworów, sprawiając, że są one odpowiednie do szerokiego zakresu zastosowań, od muzyki tła w filmach po samodzielne kompozycje muzyczne.

Transformacja audio-audio

Jednym z najbardziej ekscytujących dodatków do Stable Audio 2.0 jest możliwość transformacji audio-audio. Użytkownicy mogą teraz przesyłać własne próbki audio i transformować je przy użyciu naturalnych poleceń językowych. Ta funkcja otwiera świat możliwości twórczych, pozwalając artystom i muzykom eksperymentować z manipulacją i regeneracją dźwięku w sposób wcześniej niewyobrażalny.

Wykorzystując moc sztucznej inteligencji, użytkownicy mogą łatwo modyfikować istniejące aktywa audio, aby dopasować je do swoich potrzeb lub wizji artystycznej. Niezależnie od tego, czy chodzi o zmianę barwy instrumentu, zmianę nastroju utworu czy tworzenie całkowicie nowych dźwięków na podstawie istniejących próbek, Stable Audio 2.0 zapewnia intuicyjny sposób eksploracji transformacji audio.

Wzmocniona produkcja efektów dźwiękowych

Oprócz możliwości generowania muzyki, Stable Audio 2.0 wyróżnia się również w tworzeniu różnorodnych efektów dźwiękowych. Od subtelnych tłów, takich jak szum liści lub buczenie maszyn, po bardziej immersyjne i złożone pejzaże dźwiękowe, takie jak zatłoczone ulice miasta czy środowiska naturalne, model ten może generować szeroki zakres elementów audio.

Ta wzmocniona produkcja efektów dźwiękowych jest szczególnie cenna dla twórców treści pracujących w filmie, telewizji, grach wideo i projektach multimedialnych. Z Stable Audio 2.0, użytkownicy mogą szybko i łatwo generować wysokiej jakości efekty dźwiękowe, które w przeciwnym razie wymagałyby obszernych prac foley lub drogich licencjonowanych aktywów.

Transfer stylu

Stable Audio 2.0 wprowadza funkcję transferu stylu, która pozwala użytkownikom bezproblemowo modyfikować estetykę i cechy tonalne generowanego lub przesłanego audio. Ta możliwość umożliwia twórcom dostosowanie wyjścia audio do konkretnych tematów, gatunków lub podtekstów emocjonalnych ich projektów.

Poprzez zastosowanie transferu stylu, użytkownicy mogą eksperymentować z różnymi stylami muzycznymi, łączyć gatunki lub tworzyć całkowicie nowe palety dźwiękowe. Ta funkcja jest szczególnie przydatna do tworzenia spójnych ścieżek dźwiękowych, adaptacji muzyki do konkretnych treści wizualnych lub eksploracji kreatywnych miksu i remiksów.

Przełomowe osiągnięcia technologiczne Stable Audio 2.0

Pod powierzchnią Stable Audio 2.0 działa przełomowa technologia sztucznej inteligencji, która umożliwia jego imponujące osiągnięcia i wysokiej jakości wyjście. Architektura modelu została starannie zaprojektowana, aby poradzić sobie z unikalnymi wyzwaniami generowania spójnych, pełnych kompozycji audio, jednocześnie zachowując drobne kontrolowanie szczegółów.

Architektura modelu latentnego dyfuzji

W sercu Stable Audio 2.0 leży architektura modelu latentnego dyfuzji, która została zoptymalizowana do generowania audio. Ta architektura składa się z dwóch kluczowych komponentów: wysoko kompresowanego autoencoder i dyfuzyjnego transformatora (DiT).

Autoencoder jest odpowiedzialny za wydajne kompresowanie surowych fal audio do kompaktowych reprezentacji. Ta kompresja pozwala modelowi przechwytywać istotne cechy audio, jednocześnie filtrować mniej ważne szczegóły, w efekcie dając bardziej spójne i ustrukturyzowane wyjście.

Dyfuzyjny transformer, podobny do tego zastosowanego w przełomowym modelu Stable Diffusion 3, zastępuje tradycyjną architekturę U-Net używaną w poprzednich wersjach. DiT jest szczególnie uzdolniony do radzenia sobie z długimi sekwencjami danych, co sprawia, że jest on dobrze przystosowany do przetwarzania i generowania przedłużonych kompozycji audio.

Poprawiona wydajność i jakość

Połączenie wysoko kompresowanego autoencoder i dyfuzyjnego transformatora umożliwia Stable Audio 2.0 osiągnięcie znaczących popraw w wydajności i jakości wyjścia w porównaniu z poprzednikiem.

Kompresja autoencoder pozwala modelowi przetwarzać i generować audio z szybszą szybkością, redukując wymagane zasoby obliczeniowe i czyniąc go bardziej dostępnym dla szerszego grona użytkowników. Jednocześnie, zdolność dyfuzyjnego transformatora do rozpoznawania i odtwarzania dużych struktur gwarantuje, że wygenerowane audio zachowuje wysoki poziom spójności i integralności muzycznej.

Te przełomowe osiągnięcia technologiczne kulminują w modelu, który może generować oszałamiająco realistyczne i emocjonalnie rezonujące audio, czy to pełna kompozycja muzyczna, złożony pejzaż dźwiękowy czy subtelny efekt dźwiękowy. Architektura Stable Audio 2.0 stanowi podstawę dla przyszłych innowacji w audio generowanym przez sztuczną inteligencję, otwierając drogę do jeszcze bardziej zaawansowanych i wyrazistych narzędzi dla twórców.

Prawa twórców z Stable Audio 2.0

Ponieważ audio generowane przez sztuczną inteligencję ciągle ewoluuje i staje się bardziej dostępne, jest kluczowe, aby rozważyć implikacje etyczne i zapewnić, że prawa twórców są chronione. Stability AI podjęła proaktywne kroki, aby priorytetem było etyczne rozwoju i uczciwe wynagrodzenie dla artystów, których praca przyczynia się do szkolenia Stable Audio 2.0.

Stable Audio 2.0 został wyuczony wyłącznie na licencjonowanym zbiorze danych z AudioSparx, renomowanego źródła wysokiej jakości treści audio. Ten zbiór danych składa się z ponad 800 000 plików audio, w tym muzyki, efektów dźwiękowych i pojedynczych śladów instrumentów, wraz z odpowiadającymi im metadanymi tekstowymi. Poprzez użycie licencjonowanego zbioru danych, Stability AI zapewnia, że model jest zbudowany na fundamencie legalnie pozyskanych i odpowiednio przypisanych danych audio.

Uznając wagę autonomii twórców, Stability AI zapewniła wszystkim artystom, których praca jest zawarta w zbiorze danych AudioSparx, możliwość rezygnacji z użycia ich audio w szkoleniu Stable Audio 2.0. Ten mechanizm rezygnacji pozwala twórcom utrzymać kontrolę nad tym, jak ich praca jest wykorzystywana i gwarantuje, że tylko ci, którzy są komfortowi z użyciem ich audio do szkolenia sztucznej inteligencji, są zawarte w zbiorze danych.

Stability AI jest zaangażowana w zapewnienie, że twórcy, których praca przyczynia się do rozwoju Stable Audio 2.0, są uczciwie wynagradzani za swoje wysiłki. Poprzez licencjonowanie zbioru danych AudioSparx i zapewnienie mechanizmu rezygnacji, firma demonstruje swoje zaangażowanie w tworzeniu zrównoważonego i sprawiedliwego ekosystemu dla audio generowanego przez sztuczną inteligencję, w którym twórcy są szanowani i nagradzani za swoje wkłady.

Aby dalej chronić prawa twórców i zapobiec naruszeniom praw autorskich, Stability AI współpracuje z Audible Magic, wiodącym dostawcą technologii rozpoznawania treści. Poprzez zintegrowanie zaawansowanego systemu rozpoznawania treści (ACR) Audible Magic z procesem przesyłania audio, Stable Audio 2.0 może identyfikować i flagować potencjalnie naruszające treści, zapewniając, że tylko oryginalne lub odpowiednio licencjonowane audio jest używane w ramach platformy.

Poprzez te rozważania etyczne i inicjatywy twórców, Stability AI ustanawia silny precedens dla odpowiedzialnego rozwoju sztucznej inteligencji w dziedzinie audio. Priorytetem jest ochrona praw twórców i ustanowienie wyraźnych wytycznych dotyczących korzystania z danych i wynagrodzenia, firma tworzy współpracujące i zrównoważone środowisko, w którym kreatywność człowieka i sztuczna inteligencja mogą współistnieć i prosperować.

Kształtowanie przyszłości tworzenia audio z Stability AI

Stable Audio 2.0 oznacza znaczący kamień milowy w audio generowanym przez sztuczną inteligencję, upoważniając twórców do kompletnego zestawu narzędzi do eksploracji nowych granic w muzyce, projektowaniu dźwięku i produkcji audio. Z jego przełomową architekturą modelu latentnego dyfuzji, imponującą wydajnością i zaangażowaniem w rozważania etyczne i prawa twórców, Stability AI jest na czele kształtowania przyszłości tworzenia audio. W miarę ewolucji tej technologii jest jasne, że audio generowane przez sztuczną inteligencję będzie odgrywać coraz bardziej kluczową rolę w krajobrazie twórczym, zapewniając artystom i muzykom narzędzia niezbędne do poszerzania granic ich sztuki i ponownego definiowania tego, co jest możliwe w świecie dźwięku.

Unite.AI