stub Naukowcy tworzą model sztucznej inteligencji, który może śpiewać zarówno po chińsku, jak i po angielsku – Unite.AI
Kontakt z nami

Artificial Intelligence

Naukowcy tworzą model sztucznej inteligencji, który może śpiewać zarówno po chińsku, jak i po angielsku

mm
Zaktualizowano on

Zespół naukowców z Microsoft i Uniwersytetu Zhajiang stworzył niedawno model sztucznej inteligencji potrafiący śpiewać w wielu językach. Jak donosi VentureBeat, sztuczna inteligencja DeepSinger opracowana przez zespół był szkolony dane z różnych serwisów muzycznych, wykorzystując algorytmy, które wychwytywały barwę głosu piosenkarza.

Generowanie „głosu” piosenkarza AI wymaga algorytmów, które są w stanie przewidzieć i kontrolować zarówno wysokość, jak i czas trwania dźwięku. Kiedy ludzie śpiewają, wytwarzane przez nich dźwięki mają znacznie bardziej złożone rytmy i wzory w porównaniu do zwykłej mowy. Kolejnym problemem, który zespół musiał pokonać, było to, że chociaż dostępna była spora ilość danych na temat mówienia/treningu mowy, zestawy danych na temat treningu śpiewu są dość rzadkie. Połącz te wyzwania z faktem, że piosenki wymagają analizy zarówno dźwięku, jak i tekstu, a problem generowania śpiewu jest niezwykle złożony.

System DeepSinger stworzony przez badaczy przezwyciężył te wyzwania, opracowując potok danych, który wydobywał i przekształcał dane audio. Fragmenty śpiewu zostały pobrane z różnych serwisów muzycznych, a następnie śpiew został odizolowany od reszty dźwięku i podzielony na zdania. Następnym krokiem było określenie czasu trwania każdego fonemu w tekście, w wyniku czego powstała seria próbek, z których każda reprezentowała unikalny fonem w tekście. Czyszczenie danych odbywa się w celu usunięcia zniekształconych próbek szkoleniowych po posortowaniu tekstów i towarzyszących im próbek dźwiękowych według poziomu pewności.

Wydaje się, że dokładnie te same metody działają w przypadku różnych języków. DeepSinger był szkolony na próbkach wokalnych w języku chińskim, kantońskim i angielskim, składających się z 89 różnych wokalistów śpiewających przez ponad 92 godziny. Wyniki badania wykazały, że system DeepSinger był w stanie niezawodnie generować wysokiej jakości próbki „śpiewu” na podstawie takich wskaźników, jak dokładność wysokości tonu i naturalność brzmienia śpiewu. Badacze poprosili 20 osób, aby oceniły zarówno utwory wygenerowane przez DeepSinger, jak i utwory szkoleniowe pod kątem tych wskaźników, a różnica między wynikami wygenerowanych próbek a autentycznym dźwiękiem była dość mała. Uczestnicy przyznali DeepSingerowi średnią ocenę, która wahała się od 0.34 do 0.76.

Patrząc w przyszłość, badacze chcą spróbować poprawić jakość generowanych głosów poprzez wspólne szkolenie różnych podmodeli składających się na DeepSinger, przy pomocy specjalistycznych technologii, takich jak WaveNet, które zostały zaprojektowane specjalnie do generowania naturalnie brzmiącej mowy za pomocą przebiegów audio .

System DeepSinger może pomóc wokalistom i innym artystom muzycznym we wprowadzaniu poprawek do pracy bez konieczności powrotu do studia na kolejną sesję nagraniową. Można je również potencjalnie wykorzystać do tworzenia głębokich podróbek dźwiękowych, sprawiając wrażenie, jakby artysta śpiewał piosenkę, której tak naprawdę nigdy nie śpiewał. Choć można go wykorzystać do parodii lub satyry, jego legalność jest również wątpliwa.

DeepSinger to tylko jeden z fal nowych systemów muzycznych i audio opartych na sztucznej inteligencji, które mogą zmienić sposób interakcji muzyki i oprogramowania. OpenAI wypuściło niedawno własny system AI, nazwany JukeBox, która jest w stanie wyprodukować oryginalne utwory muzyczne w stylu określonego gatunku, a nawet konkretnego artysty. Inne muzyczne narzędzia AI obejmują Magenta Google i DeepComposer firmy Amazon. Magnets to biblioteka do manipulacji dźwiękiem (i obrazem) o otwartym kodzie źródłowym, której można używać do tworzenia wszystkiego, od automatycznego podkładu perkusyjnego po proste gry wideo oparte na muzyce. Tymczasem usługa DeepComposer firmy Amazon jest skierowana do tych, którzy chcą trenować i dostosowywać własne modele głębokiego uczenia się oparte na muzyce, umożliwiając użytkownikowi pobranie wcześniej wytrenowanych przykładowych modeli i dostosowanie ich do swoich potrzeb.

Możesz posłuchać niektórych próbek audio wygenerowanych przez DeepSinger pod tym linkiem.

Bloger i programista specjalizujący się w Nauczanie maszynowe i głęboki Learning tematy. Daniel ma nadzieję pomóc innym wykorzystać moc sztucznej inteligencji dla dobra społecznego.