Sztuczna inteligencja
Odczytywanie z ruchów warg z użyciem visem i uczenia maszynowego

Nowe badania przeprowadzone w Szkole Inżynierii Komputerowej w Teheranie oferują ulepszony podejście do wyzwania tworzenia systemów uczenia maszynowego zdolnych do odczytywania ruchów warg.
Artykuł, zatytułowany Odczytywanie z ruchów warg przy użyciu dekodowania visem, donosi, że nowy system osiąga 4% poprawę wskaźnika błędów słownych w porównaniu z najlepszymi wcześniejszymi modelami. System rozwiązuje ogólny brak przydatnych danych szkoleniowych w tym sektorze, mapując visemy na treści tekstowe pochodzące z sześciu milionów próbek w zbiorze OpenSubtitles przetłumaczonych tytułów filmów.
Visema jest równoważnikiem wizualnym fonemu, efektywnie mapowaniem audio>obraz, które może stanowić “cechę” w modelu uczenia maszynowego.

Visemy w działaniu. Źródło: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/
Badacze rozpoczęli od ustalenia najniższego wskaźnika błędów w dostępnych zbiorach danych, a następnie opracowali sekwencje visem przy użyciu ustalonych procedur mapowania. Stopniowo, proces ten rozwija wizualny leksykon słów – choć konieczne jest określenie prawdopodobieństwa dokładności dla różnych słów, które dzielą visemę (takich jak “serce” i “sztuka”).
Gdzie dwa identyczne słowa dają ten sam wynik visemy, wybiera się najczęściej występujące słowo.
Model opiera się na tradycyjnym uczeniu sekwencji przez dodanie podprocesu, w którym visemy są przewidywane z tekstu i modelowane w dedykowanej pipeline:

Powyżej, tradycyjne metody sekwencji w modelu znakowym; poniżej, dodanie modelowania znaków visem w modelu badawczym z Teheranu. Źródło: https://arxiv.org/pdf/2104.04784.pdf
Model został zastosowany bez kontekstu wizualnego wobec zbioru danych LRS3-TED, wydanego przez Uniwersytet w Oksfordzie w 2018 roku, z najgorszym wskaźnikiem błędów słownych (WER) na poziomie 24,29%.
Badania w Teheranie obejmują również użycie konwertera grafemów na fonemy.
W teście przeciwko badaniom z Oksfordu z 2017 roku Odczytywanie zdania z ruchów warg na wolnym powietrzu (patrz poniżej), metoda Video-To-Viseme osiągnęła wskaźnik błędów słownych na poziomie 62,3%, w porównaniu z 69,5% dla metody Oksfordu.
Badacze dochodzą do wniosku, że użycie większej ilości informacji tekstowych, w połączeniu z mapowaniem grafemów na fonemy i visemy, obiecuje poprawę stanu sztuki w systemach automatycznego odczytywania z ruchów warg, przyznając, że metody użyte mogą dać jeszcze lepsze wyniki, gdy zostaną włączone do bardziej zaawansowanych obecnych ram.
Odczytywanie z ruchów warg maszynami było aktywnym i ciągłym obszarem badań w dziedzinie widzenia komputerowego i NLP przez ostatnie dwie dekady. Wśród wielu innych przykładów i projektów, w 2006 roku użycie oprogramowania do automatycznego odczytywania z ruchów warg przyciągnęło uwagę mediów, gdy zostało użyte do interpretacji tego, co Adolf Hitler mówił w niektórych słynnych filmach niemych nakręconych w jego bawarskiej rezydencji, chociaż zastosowanie tego oprogramowania wydaje się zniknąć w niepamięci od tego czasu (dwanaście lat później, Sir Peter Jackson posłużył się ludzkimi czytelnikami warg, aby przywrócić rozmowy z filmów z I wojny światowej w projekcie renowacji They Shall Not Grow Old)).
W 2017 roku Odczytywanie zdania z ruchów warg na wolnym powietrzu, współpraca między Uniwersytetem w Oksfordzie a działem badań AI Google, wyprodukowała sztuczną inteligencję do odczytywania z ruchów warg, która mogła poprawnie wnioskować 48% mówionych słów w filmach bez dźwięku, gdzie czytelnik warg mógł osiągnąć tylko 12,4% dokładności z tego samego materiału. Model został wyszkolony na tysiącach godzin filmów BBC.
Praca ta była kontynuacją oddzielnego projektu Oksfordu i Google z poprzedniego roku, zatytułowanego LipNet, architekturę sieci neuronowej, która mapowała sekwencje wideo o zmiennej długości na sekwencje tekstowe przy użyciu sieci neuronowej z bramkowanym powtarzaniem (GRN), co dodaje funkcjonalność do podstawowej architektury sieci neuronowej z powtarzaniem (RNN). Model osiągnął 4,1-krotnie lepszą wydajność niż ludzcy czytelnicy warg.
Oprócz problemu uzyskania dokładnego transkrypcji w czasie rzeczywistym, wyzwanie interpretacji mowy z filmu pogłębia się, gdy usuwa się pomocny kontekst, taki jak dźwięk, “z przodu” nagrania, które jest dobrze oświetlone, i język/kultura, w której fonemy/visemy są względnie odrębne.
Chociaż nie ma obecnie empirycznego zrozumienia, które języki są najtrudniejsze do odczytania z ruchów warg w pełni bez dźwięku, japoński jest głównym kandydatem. Różne sposoby, w jakie rodzimi Japończycy (a także niektórzy inni Azjaci Wschodni i Zachodni) wykorzystują wyrażenia twarzy przeciwko treści ich mowy, już teraz sprawiają, że są większym wyzwaniem dla systemów rozpoznawania emocji.
Jednak warto zauważyć, że wiele literatury naukowej na ten temat jest ogólnie ostrożne, nie tylko dlatego, że nawet dobrze zamierzone obiektywne badania w tej sferze ryzykują przekroczenie granicy rasowego profilowania i utrwalania istniejących stereotypów.
Języki z wysokim udziałem głosk gardłowych, takie jak czeczeński i holenderski, są szczególnie problematyczne dla automatycznych technik ekstrakcji mowy, podczas gdy kultury, w których mówca może wyrażać emocje lub pokorę, odwracając się (znowu, ogólnie w azjatyckich kulturach), dodają kolejny wymiar, w którym badacze AI muszą opracować dodatkowe metody “wypełniania” z innych kontekstowych wskazówek.













