Umělá inteligence

Odečítání ze rtů s visemi a strojovým učením

aktualizováno on 9. prosince 2022

HAL odečítá ze rtů v roce 2001: Vesmírná odysea (1968)

Nový výzkum ze School of Computer Engineering v Teheránu nabízí vylepšený přístup k výzvě vytváření systémů strojového učení schopných odečítat rty.

Projekt papír, nárok Odečítání ze rtů pomocí dekódování visemu, uvádí, že nový systém dosahuje 4% zlepšení chybovosti slov ve srovnání s nejlepšími podobnými předchozími modely. Systém řeší obecný nedostatek užitečných školicích dat v tomto sektoru mapováním visemy na textový obsah odvozený ze šesti milionů vzorků v datové sadě OpenSubtitles přeložených filmových titulů.

Visem je vizuální ekvivalent fonému, v podstatě audio>obraz mapování které mohou představovat „funkci“ v modelu strojového učení.

Visémy v akci. Zdroj: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Výzkumníci začali tím, že stanovili nejnižší chybovost na dostupných souborech dat a vyvinuli visemové sekvence ze zavedených mapovacích postupů. Tento proces postupně vyvíjí vizuální lexikon slov – i když je nutné definovat pravděpodobnosti přesnosti pro různá slova, která sdílejí visem (jako je „srdce“ a „umění“).

Visémy extrahované z textu. Zdroj: https://arxiv.org/pdf/2104.04784.pdf

Pokud dvě identická slova vedou ke stejnému visemu, je vybráno nejčastěji se vyskytující slovo.

Model navazuje na tradiční sekvence-k-sekvenci učení přidáním fáze dílčího zpracování, ve které jsou visemy predikovány z textu a modelovány ve vyhrazeném potrubí:

Výše, tradiční metody posloupnosti v modelu postavy; níže, přidání modelování visemských postav do modelu výzkumu Teheránu. Zdroj: https://arxiv.org/pdf/2104.04784.pdf

Model byl aplikován bez vizuálního kontextu proti Datový soubor LRS3-TED, propuštěn z Oxfordské univerzity v roce 2018, přičemž nejhorší slovní chybovost (WER) získala úctyhodných 24.29 %.

Teheránský výzkum také zahrnuje použití a grafém-k-foném konvertor.

V testu proti oxfordskému výzkumu z roku 2017 Odečítání Vět V Přírodě (viz níže), metoda Video-To-Viseme dosáhla chybovosti slov 62.3 % oproti 69.5 % u metody Oxford.

Výzkumníci dospěli k závěru, že použití většího objemu textových informací v kombinaci s mapováním grafémů na foném a viseémy slibuje zlepšení oproti stavu techniky v systémech automatizovaných strojů pro odečítání ze rtů, přičemž uznávají, že použité metody mohou vést k lepší výsledky při začlenění do sofistikovanějších současných rámců.

Strojově řízené odečítání ze rtů je aktivní a pokračující oblastí výzkumu počítačového vidění a NLP v posledních dvou desetiletích. Mezi mnoha dalšími příklady a projekty bylo v roce 2006 použití softwaru pro automatizované odečítání ze rtů zachycené titulky když se používal k interpretaci toho, co říkal Adolf Hitler v některých slavných němých filmech natočených na jeho bavorském ústraní, i když se zdá, že tato aplikace od té doby zmizela v neznámu (o dvanáct let později, Sir Peter Jackson uchýlil se lidem, kteří odečítají ze rtů, aby obnovili rozhovory ze záběrů z 1. světové války v projektu restaurování Nezestárnou).

V 2017, Věty odezírání ze rtů v divočině, spolupráce mezi Oxfordskou univerzitou a výzkumnou divizí AI společnosti Google vytvořila a AI odezírání ze rtů schopný správně odvodit 48 % řeči ve videu bez zvuku, kde člověk odečítající ze rtů mohl dosáhnout přesnosti pouze 12.4 % ze stejného materiálu. Model byl trénován na tisících hodin záběrů televize BBC.

Tato práce navazovala na a samostatný Iniciativa Oxford/Google z předchozího roku s názvem LipNet, architektura neuronové sítě, která mapovala video sekvence různé délky na textové sekvence pomocí Gated Recurrent Network (GRN), která přidává funkčnost k základní architektuře Recurrent Neural Network (RNN). Model dosáhl 4.1x lepšího výkonu oproti lidským čtečkám rtů.

Kromě problému se získáním přesného přepisu v reálném čase se problém s interpretací řeči z videa prohlubuje, když odstraňujete užitečný kontext, jako je zvuk, záběry „tváří v tvář“, které jsou dobře osvětlené, a jazyk/kultura, kde jsou fonémy/ visemy jsou poměrně odlišné.

Ačkoli v současné době neexistuje žádné empirické pochopení toho, které jazyky jsou nejobtížnější odezírat ze rtů při úplné absenci zvuku, japonština je hlavní uchazeč. Různé způsoby, jimiž japonští domorodci (stejně jako někteří jiní západní a východoasijští domorodci) využívají výrazy obličeje proti obsahu své řeči, z nich již činí větší výzva pro systémy analýzy sentimentu.

Je však třeba poznamenat, že velká část vědecké literatury na toto téma je obecně obezřetný, v neposlední řadě proto, že i dobře míněný objektivní výzkum v této oblasti riskuje, že přejde do rasového profilování a propagace existujících stereotypů.

Jazyky s vysokým podílem hrdelních složek, jako je kupř Čečenský a holandský, jsou zvláště problematické pro techniky automatizované extrakce řeči, zatímco kultury, kde mluvčí může vyjádřit emoce nebo úctu tím, že se dívá jinam (opět obecně v asijských kulturách) přidat další dimenzi, kde výzkumníci AI odezívající ze rtů budou muset vyvinout další metody „vyplňování“ z jiných kontextových vodítek.