Connect with us

Umělá inteligence

Čtení rtů pomocí visem a strojového učení

mm
HAL reads lips in 2001: A Space Odyssey (1968)

Nová výzkum ze Školy počítačového inženýrství v Teheránu nabízí vylepšený přístup k výzvě vytváření systémů strojového učení schopných číst rty.

Článek, nazvaný Čtení rtů pomocí dekódování visem, uvádí, že nový systém dosahuje 4% zlepšení chybovosti slov oproti nejlepšímu z podobných předchozích modelů. Systém řeší obecný nedostatek užitečných trénovacích dat v tomto sektoru mapováním visem na textový obsah odvozený ze šesti milionů vzorků v datové sadě OpenSubtitles přeložených filmových titulků.

Visem je vizuální ekvivalent fonému, efektivní mapa zvuk->obraz, která může tvořit “funkci” ve modèlech strojového učení.

Visemy v akci

Visemy v akci. Zdroj: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Výzkumníci začali tím, že stanovili nejnižší chybovou sazbu na dostupných datech a vyvinuli sekvence visem z etablovaných mapovacích procedur. Postupně se tento proces vyvíjí do vizuálního lexikonu slov – i když je nutné definovat pravděpodobnosti přesnosti pro různá slova, která sdílejí visem (jako “srdce” a “umění”).

Dekódované visemy

Visemy extrahované z textu. Zdroj: https://arxiv.org/pdf/2104.04784.pdf

Kde dvě identická slova vedou k stejnému visemu, je vybráno nejčastěji se vyskytující slovo.

Model vychází z tradičního sekvence-na-sekvenci učení přidáním podprocesního stádia, ve kterém se visemy předpovídají z textu a modelují v dedikovaném potrubí:

Architektura visem pro čtení rtů

Nahoře, tradiční sekvence-na-sekvenci metody v charakterovém modelu; dole, přidání modelování visem v teheránském výzkumném modelu. Zdroj: https://arxiv.org/pdf/2104.04784.pdf

Model byl aplikován bez vizuálního kontextu proti LRS3-TED datasetu, vydanému z Oxfordské univerzity v roce 2018, s nejhorší chybovou sazbou slov (WER) získanou 24,29%.

Teheránský výzkum také zahrnuje použití grafém-to-foném převodníku.

V testu proti oxfordskému výzkumu Čtení rtů ve větách v divočině (viz níže), metoda Video-To-Viseme dosáhla chybové sazby slov 62,3%, ve srovnání s 69,5% pro oxfordskou metodu.

Výzkumníci uzavírají, že použití vyššího objemu textové informace, kombinované s grafém-to-foném a mapováním visem, slibuje zlepšení oproti současnému stavu v automatizovaných systémech čtení rtů, zatímco uznávají, že metody použité mohou produkovat ještě lepší výsledky, když jsou začleněny do více sofistikovaných současných rámců.

Strojově řízené čtení rtů bylo aktivní a probíhající oblastí počítačového vidění a výzkumu NLP v posledních dvou desetiletích. Mezi mnoha dalšími příklady a projekty, v roce 2006 použití automatizovaného softwaru pro čtení rtů získalo titulky, když bylo použito k interpretaci toho, co Adolf Hitler říkal v některých slavných němých filmech pořízených v jeho bavorském útočišti, i když aplikace zdá se, že zmizela do zapomnění (dvanáct let později, Sir Peter Jackson se uchýlil k lidským čtenářům rtů, aby obnovil konverzace z footage z 1. světové války v restauračním projektu They Shall Not Grow Old)).

V roce 2017, Čtení rtů ve větách v divočině, spolupráce mezi Oxfordskou univerzitou a výzkumnou divizí Google, produkovala čtenář rtů AI schopný správně odhadnout 48% řeči ve videu bez zvuku, kde lidský čtenář rtů mohl dosáhnout pouze 12,4% přesnosti z stejného materiálu. Model byl trénován na tisících hodinách BBC TV footage.

Tato práce navázala na samostatnou oxfordsko-google iniciativu z předchozího roku, nazvanou LipNet, architektura neuronové sítě, která mapovala video sekvence proměnné délky na textové sekvence pomocí Gated Recurrent Network (GRN), která přidává funkčnost k základní architektuře Recurrent Neural Network (RNN). Model dosáhl 4,1krát lepšího výkonu než lidský čtenář rtů.

Kromě problému získání přesného přepisu v reálném čase, výzva interpretace řeči z videa se prohlubuje, když odstraníte užitečné kontexty, jako je audio, “face-on” footage, které je dobře osvětlené, a jazyk/kultura, kde jsou fonémy/visemy relativně odlišné.

Ačkoli v současné době neexistuje empirické pochopení, které jazyky jsou nejobtížnější pro čtení rtů v úplné absenci audio, japonština je hlavním kandidátem. Různé způsoby, kterými japonští rodilí (stejně jako určití další západní a východní asijské rodilí) využívají mimiku proti obsahu své řeči, již činí větší výzvou pro systémy rozpoznávání emocí.

Jazyky s vysokým podílem gutturálních složek, jako je čečenský a holandský, jsou zvláště problematické pro automatizované techniky extrakce řeči, zatímco kultury, kde mluvčí může vyjádřit emoci nebo úctu odvrácením se (opět obecně v asijských kulturách), přidávají další rozměr, ve kterém výzkumníci AI čtení rtů budou muset vyvinout další metody “doplnění” z jiných kontextových podnětů.

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai