Connect with us

Sztuczna inteligencja

Odczytywanie z ruchów warg przy użyciu visem i uczenia maszynowego

mm
HAL reads lips in 2001: A Space Odyssey (1968)

Nowe badania ze Szkoły Inżynierii Komputerowej w Teheranie oferują ulepszony podejście do wyzwania tworzenia systemów uczenia maszynowego zdolnych do odczytywania ruchów warg.

Artykuł, zatytułowany Odczytywanie z ruchów warg przy użyciu dekodowania visem, donosi, że nowy system osiąga 4% poprawę wskaźnika błędów słownych w porównaniu z najlepszymi wcześniejszymi modelami. System rozwiązuje ogólny brak przydatnych danych szkoleniowych w tym sektorze, mapując visemy na treści tekstowe pochodzące z sześciu milionów próbek w zestawie danych OpenSubtitles przetłumaczonych tytułów filmów.

Visema jest równoważnikiem wizualnym fonemu, skutecznie mapowaniem audio>obraz, które może stanowić “cechę” w modelu uczenia maszynowego.

Visemy w działaniu

Visemy w działaniu. Źródło: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Badacze rozpoczęli od ustalenia najniższego wskaźnika błędów w dostępnych zestawach danych, a następnie opracowali sekwencje visem przy użyciu ustanowionych procedur mapowania. Stopniowo, proces ten rozwija wizualny leksykon słów – choć konieczne jest określenie prawdopodobieństwa dokładności dla różnych słów, które dzielą visemę (takich jak “serce” i “sztuka”).

Visemy wyodrębnione z tekstu

Visemy wyodrębnione z tekstu. Źródło: https://arxiv.org/pdf/2104.04784.pdf

Gdzie dwa identyczne słowa dają ten sam visem, wybiera się najczęściej występujące słowo.

Model opiera się na tradycyjnym uczeniu sekwencji przez dodanie podprocesu, w którym visemy są przewidywane z tekstu i modelowane w dedykowanym potoku:

Architektura visem do odczytywania z ruchów warg

Powyżej, tradycyjne metody sekwencji w modelu znakowym; poniżej, dodanie modelowania znaków visem w modelu badawczym z Teheranu. Źródło: https://arxiv.org/pdf/2104.04784.pdf

Model został zastosowany bez kontekstu wizualnego wobec zestawu danych LRS3-TED, opublikowanego przez Uniwersytet w Oksfordzie w 2018 roku, z najgorszym wskaźnikiem błędów słownych (WER) wynoszącym 24,29%.

Badania w Teheranie obejmują również wykorzystanie konwertera grafem-fonem.

W teście przeciwko oksfordzkiemu badaniu z 2017 roku Odczytywanie z ruchów warg w zdaniach na wolnym powietrzu (patrz poniżej), metoda Video-To-Viseme osiągnęła wskaźnik błędów słownych na poziomie 62,3%, w porównaniu z 69,5% dla metody oksfordzkiej.

Badacze dochodzą do wniosku, że wykorzystanie większej ilości informacji tekstowych, w połączeniu z mapowaniem grafem-fonem i visem, obiecuje poprawę stanu sztuki w systemach automatycznego odczytywania z ruchów warg, przyznając, że metody użyte mogą dać jeszcze lepsze wyniki, gdy zostaną włączone do bardziej zaawansowanych obecnych ram.

Odczytywanie z ruchów warg za pomocą maszyn zostało aktywnym i ciągłym obszarem badań w dziedzinie widzenia komputerowego i NLP w ciągu ostatnich dwóch dekad. Wśród wielu innych przykładów i projektów, w 2006 roku zastosowanie oprogramowania do automatycznego odczytywania z ruchów warg przyciągnęło uwagę mediów, gdy zostało użyte do interpretacji tego, co Adolf Hitler mówił w niektórych słynnych filmach niemych nakręconych w jego bawarskiej posiadłości, choć zastosowanie tego oprogramowania wydaje się zniknąć w zapomnieniu (dwanaście lat później, Sir Peter Jackson posłużył się ludzkimi czytelnikami warg, aby przywrócić rozmowy z filmów z I wojny światowej w projekcie renowacji They Shall Not Grow Old)).

W 2017 roku Odczytywanie z ruchów warg w zdaniach na wolnym powietrzu, współpraca między Uniwersytetem w Oksfordzie a działem badań AI Google wyprodukowała sztuczną inteligencję do odczytywania z ruchów warg, która mogła poprawnie wnioskować o 48% mowy w filmie bez dźwięku, gdzie czytelnik warg mógł osiągnąć tylko 12,4% dokładności z tego samego materiału. Model został przeszkolony na tysiącach godzin filmów BBC.

Praca ta była kontynuacją oddzielnego oksfordzko-googlowego projektu z poprzedniego roku, zatytułowanego LipNet, architekturę sieci neuronowej, która mapowała sekwencje wideo o zmiennej długości na sekwencje tekstowe przy użyciu sieci rekurencyjnej z bramkowaniem (GRN), co dodaje funkcjonalność do podstawowej architektury sieci rekurencyjnej (RNN). Model osiągnął 4,1-krotną poprawę wyników w porównaniu z ludzkimi czytelnikami warg.

Oprócz problemu uzyskania dokładnego transkrypcji w czasie rzeczywistym, wyzwanie interpretacji mowy z filmu pogłębia się, gdy usuwa się pomocny kontekst, taki jak dźwięk, “z przodu” filmów, które są dobrze oświetlone, i język/kulturę, w którym fonemy/visemy są względnie odrębne.

Chociaż nie ma obecnie empirycznego zrozumienia, które języki są najtrudniejsze do odczytania z ruchów warg w całkowitej absencji dźwięku, japoński jest głównym kandydatem. Różne sposoby, w jakie japońscy rodzimi użytkownicy (a także niektórzy inni użytkownicy azjatyccy) wykorzystują wyrażenia twarzy przeciwko treści ich wypowiedzi, już teraz sprawiają, że są większym wyzwaniem dla systemów analizy sentymentu.

Jednak warto zauważyć, że wiele literatury naukowej na ten temat jest ogólnie ostrożne, nie tylko dlatego, że nawet dobrze zamierzone obiektywne badania w tej sferze ryzykują przekroczenie granicy rasowego profilowania i utrwalenia istniejących stereotypów.

Języki z wysokim udziałem elementów gutturalnych, takich jak czeczeński i holenderski, są szczególnie problematyczne dla automatycznych technik ekstrakcji mowy, podczas gdy kultury, w których mówca może wyrażać emocje lub pokorę, odwracając się (znowu, ogólnie w azjatyckich kulturach), dodają kolejny wymiar, w którym badacze AI muszą opracować dodatkowe metody “wypełniania” z innych kontekstowych wskazówek.

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.