Sztuczna inteligencja

Naukowcy tworzą model AI potrafiący śpiewać w języku chińskim i angielskim

mm

Zespół naukowców z Microsoft i Zhajiang University niedawno stworzył model AI potrafiący śpiewać w wielu językach. Jak donosi VentureBeat, DeepSinger AI opracowany przez zespół został opracowany na podstawie danych z różnych stron muzycznych, wykorzystując algorytmy, które uchwyciły barwę głosu śpiewaka.

Generowanie “głosu” śpiewaka AI wymaga algorytmów, które są w stanie przewidywać i kontrolować zarówno wysokość, jak i czas trwania dźwięku. Kiedy ludzie śpiewają, hałasy, które produkują, mają o wiele bardziej złożone rytm i wzorce w porównaniu z prostą mową. Innym problemem, który zespół musiał pokonać, było to, że chociaż istnieje dużo danych szkoleniowych do mówienia, zestawy danych szkoleniowych do śpiewu są dość rzadkie. Połączenie tych wyzwań z faktem, że piosenki muszą mieć zarówno dźwięk, jak i teksty analizowane, sprawia, że problem generowania śpiewu jest niezwykle złożony.

System DeepSinger stworzony przez naukowców pokonał te wyzwania, opracowując potok danych, który wydobywał i przekształcał dane audio. Klipy śpiewu zostały wyodrębnione z różnych stron muzycznych, a następnie śpiew został wyizolowany z reszty audio i podzielony na zdania. Następnym krokiem było określenie czasu trwania każdego fonemu w tekście, w wyniku czego powstała seria próbek, z których każda reprezentowała unikalny fonem w tekście. Czyszczenie danych jest wykonywane w celu rozwiązania problemu zniekształconych próbek szkoleniowych po tym, jak teksty i towarzyszące im próbki audio są posortowane według oceny ufności.

Te same metody wydają się działać dla różnych języków. DeepSinger został opracowany na podstawie chińskich, kantońskich i angielskich próbek wokalnych, składających się z 89 różnych śpiewaków śpiewających przez ponad 92 godziny. Wyniki badania wykazały, że system DeepSinger był w stanie niezawodnie generować wysokiej jakości “śpiew” próbki zgodnie z metrykami takimi jak dokładność wysokości i to, jak naturalnie brzmi śpiew. Naukowcy poprosili 20 osób o ocenę zarówno piosenek wygenerowanych przez DeepSinger, jak i piosenek szkoleniowych według tych metryk, a różnica między ocenami dla wygenerowanych próbek a oryginalnymi nagraniami była dość mała. Uczestnicy przyznali DeepSinger średnią ocenę, która różniła się od 0,34 do 0,76.

Spójrzmy w przyszłość, naukowcy chcą spróbować poprawić jakość wygenerowanych głosów, łącząc szkolenie różnych podmodeli, które składają się na DeepSinger, z wykorzystaniem specjalistycznych technologii, takich jak WaveNet, które są zaprojektowane specjalnie do generowania naturalnie brzmiącej mowy za pomocą fal dźwiękowych.

System DeepSinger może być wykorzystany do pomocy śpiewakom i innym artystom muzycznym w korekcji ich pracy bez konieczności powrotu do studia nagraniowego. Może być również potencjalnie wykorzystany do tworzenia audio deepfake, sprawiając, że wydaje się, iż artysta śpiewał piosenkę, której nigdy nie nagrał. Chociaż może być wykorzystany do parodii lub satyry, jest to również wątpliwe pod względem legalności.

DeepSinger jest tylko jednym z nowej fali systemów AI opartych na muzyce i dźwięku, które mogą zmienić sposób, w jaki muzyka i oprogramowanie взаимодействują. OpenAI niedawno wydał swój własny system AI, nazwany JukeBox, który jest w stanie produkować oryginalne utwory muzyczne w stylu określonego gatunku lub nawet konkretnego artysty. Inne narzędzia muzyczne AI obejmują Google’s Magenta i Amazon’s DeepComposer. Magenta to biblioteka open source do manipulacji audio (i obrazu), która może być wykorzystana do produkcji wszystkiego, od automatycznego podkładu perkusyjnego po proste gry muzyczne wideo. Tymczasem Amazon’s DeepComposer jest skierowany do tych, którzy chcą szkolić i dostosowywać własne modele głębokiego uczenia się oparte na muzyce, pozwalając użytkownikowi na pobranie wstępnie opracowanych modeli próbek i dostosowanie modeli do swoich potrzeb.

Możesz posłuchać niektórych próbek audio wygenerowanych przez DeepSinger w tym linku.

Blogger i programista ze specjalnościami w Machine Learning i Deep Learning tematy. Daniel liczy, że pomoże innym wykorzystać moc sztucznej inteligencji dla dobra społecznego.