Sztuczna inteligencja
Ujednolicenie syntezowania mowy i gestów

Kiedy wróciłem do Wielkiej Brytanii po kilku latach spędzonych w południowych Włoszech, minęło trochę czasu, zanim przestałem gestykulować, gdy mówiłem. W Wielkiej Brytanii wspieranie swojej mowy ruchami rąk sprawia, że wyglądasz jak ktoś, kto za dużo pił kawy; we Włoszech, jako osoba ucząca się języka, naprawdę pomagało mi być zrozumianym. Nawet teraz, w rzadszych przypadkach, gdy mówię po włosku, “dzikie ręce” wracają do służby. Prawie niemożliwe jest mówienie po włosku bez ruchów.
W ostatnich latach komunikacja wspomagana gestami w kulturze włoskiej i żydowskiej zyskała uznanie publiczne jako coś więcej niż tylko trop z filmów Martina Scorsese i wczesnych filmów Woody’ego Allena. W 2013 roku New York Times przygotował krótką historię wideo włoskich gestów rąk; środowisko akademickie zaczyna badać skłonności rasowe do gestykulacji, zamiast odrzucać ten temat jako stereotyp; nowe emotikony z Konsorcjum Unicode są zamknięciem braku gestów, który pojawia się w przypadku czysto cyfrowej, opartej na tekście komunikacji.
Zintegrowane podejście do mowy i gestykulacji
Teraz nowe badania z Wydziału Mowy, Muzyki i Słuchu w KTH Królewskim Instytucie Technologicznym w Szwecji mają na celu połączenie rozpoznawania mowy i gestów w zintegrowanym, wielomodalnym systemie, który potencjalnie może zwiększyć nasze zrozumienie komunikacji opartej na mowie, używając języka ciała jako zintegrowanego dodatku do mowy, a nie jako równoległej dziedziny badań.

Wizualizacje ze strony testowej szwedzkiego projektu mowy/gestów. Źródło: https://swatsw.github.io/isg_icmi21/
Badania proponują nowy model o nazwie Zintegrowana Synteza Mowy i Gestów (ISG) i łączą kilka najnowszych modeli neuronowych z badań nad mową i gestami.
Nowe podejście porzuca liniowy model pipeline (gdzie informacje o gestach są pochodne sekwencyjnie z mowy jako wtórny etap przetwarzania) na rzecz bardziej zintegrowanego podejścia, które jest równie oceniane przez użytkowników końcowych, jak istniejące systemy, i które osiąga szybszy czas syntezy i zmniejszoną liczbę parametrów.

Podejście liniowe vs. zintegrowane. Źródło: https://arxiv.org/pdf/2108.11436.pdf
Nowy system wielomodalny łączy spontaniczny syntezator mowy i generator gestów sterowany mową, oba wytrenowane na istniejącym zestawie danych Trinity Speech Gesture dataset. Zestaw danych zawiera 244 minuty audio i nagrania ciała mężczyzny mówiącego na różne tematy i gestykulującego swobodnie.
Praca jest nowatorskim i tangencjalnym odpowiednikiem projektu DurIAN, który generuje wyrażenia twarzy i mowę, a nie gesty i mowę, i który należy bardziej do dziedziny rozpoznawania i syntezy wyrażeń.
Architektury
Składniki mowy i wizualne (gest) projektu są niezrównoważone pod względem danych; tekst jest rzadki, a gestykulacja jest bogata i wymaga dużo danych – wyzwanie w określaniu celów i metryk. Dlatego badacze oceniali system przede wszystkim na podstawie reakcji ludzi na dane wyjściowe, a nie bardziej oczywistych podejść mechanicznych, takich jak średni błąd kwadratowy (MSE).
Dwa główne modele ISG zostały opracowane wokół drugiej iteracji projektu syntezowania mowy Google z 2017 roku Tacotron i południowokoreańskiej inicjatywy Glow-TTS opublikowanej w 2020 roku. Tacotron wykorzystuje architekturę autoregresyjną LSTM, podczas gdy Glow-TTS działa równolegle za pomocą operatorów konwolucyjnych, z szybszą wydajnością GPU i bez problemów ze stabilnością, które mogą wystąpić w modelach autoregresyjnych.
Badacze przetestowali trzy skuteczne systemy mowy/gestów podczas projektu: zmodyfikowaną wersję wielomodalnego generatora mowy i gestów opublikowaną w 2021 roku przez kilku z tych samych badaczy w nowym projekcie; dedykowaną i zmodyfikowaną wersję ISG otwartoźródłowego Tacotron 2; oraz bardzo zmodyfikowaną wersję ISG Glow-TTS.
Aby ocenić systemy, badacze stworzyli środowisko zwrotne oparte na sieci, zawierające articulate 3D ludzi mówiących i poruszających się do przeddefiniowanych segmentów tekstu (ogólny wygląd środowiska można zobaczyć na publicznej stronie projektu).

Środowisko testowe.
Osoby testowe zostały poproszone o ocenę wydajności systemu na podstawie mowy i gestów, tylko mowy i tylko gestów. Wyniki pokazały niewielką poprawę w nowej wersji ISG w porównaniu ze starszym modelem pipeline, chociaż nowszy system działa szybciej i z mniejszymi zasobami.

Zapytani “Jak ludzki jest gest?”, w pełni zintegrowany model ISG kończy nieznacznie przed wolniejszym modelem pipeline, a modele oparte na Tacotron i Glow są dalej w tyle.
Zawarte przeciąganie ramion
Model Tacotron2-ISG, najbardziej udany z trzech podejść, wykazuje pewien poziom “podświadomego” uczenia się w odniesieniu do niektórych najczęstszych fraz w zestawie danych, takich jak “Nie wiem” – pomimo braku jawnych danych, które powodowałyby, że generator generuje przeciąganie ramion, aby towarzyszyć tej frazie, badacze stwierdzili, że generator faktycznie przeciąga ramionami.
Badacze zauważają, że bardzo specyficzny charakter tego nowatorskiego projektu oznacza brak ogólnych zasobów, takich jak dedykowane zestawy danych, które łączą dane mowy i gestów w sposób odpowiedni do szkolenia takiego systemu. Niemniej jednak, pomimo pionierskiego charakteru badań, uważają to za obiecującą i mało zbadaną gałąź badań nad mową, językiem i rozpoznawaniem gestów.












