Umetna inteligenca

Branje z ustnic z Visemes in strojnim učenjem

Posodobljeno on December 9, 2022

HAL bere z ustnic leta 2001: Vesoljska odiseja (1968)

Nova raziskava Šole za računalniški inženiring v Teheranu ponuja izboljšan pristop k izzivu ustvarjanja sistemov strojnega učenja, ki lahko berejo z ustnic.

O papirja, z naslovom Branje z ustnic z dekodiranjem Viseme, poroča, da novi sistem dosega 4-odstotno izboljšanje stopnje besednih napak v primerjavi z najboljšimi podobnimi prejšnjimi modeli. Sistem obravnava splošno pomanjkanje uporabnih podatkov o usposabljanju v tem sektorju s preslikavo visemi na besedilno vsebino, pridobljeno iz šestih milijonov vzorcev v naboru podatkov OpenSubtitles prevedenih naslovov filmov.

Visem je vizualni ekvivalent fonema, dejansko zvočna> slika kartiranje ki lahko predstavljajo 'funkcijo' v modelu strojnega učenja.

Visemes v akciji. Vir: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Raziskovalci so začeli z določitvijo najnižje stopnje napak na razpoložljivih nizih podatkov in razvojem visemskih zaporedij iz uveljavljenih postopkov kartiranja. Postopoma ta proces razvije vizualni leksikon besed – čeprav je treba definirati verjetnosti točnosti za različne besede, ki imajo skupen visem (kot sta "srce" in "umetnost").

Visemes izvlečen iz besedila. Vir: https://arxiv.org/pdf/2104.04784.pdf

Če dve enaki besedi povzročita isti visem, je izbrana beseda, ki se najpogosteje pojavlja.

Model temelji na tradicionalnem od zaporedja do zaporedja učenje z dodajanjem stopnje podprocesiranja, kjer so visemi predvideni iz besedila in modelirani v namenskem cevovodu:

Zgoraj tradicionalne metode od zaporedja do zaporedja v modelu znakov; spodaj dodajanje modeliranja znakov visema v teheranskem raziskovalnem modelu. Vir: https://arxiv.org/pdf/2104.04784.pdf

Model je bil uporabljen brez vizualnega konteksta proti Nabor podatkov LRS3-TED, sprosti z Univerze v Oxfordu leta 2018, z najslabšo stopnjo besednih napak (WER), ki je dosegla uglednih 24.29 %.

Teheranska raziskava vključuje tudi uporabo a grafem-fonem pretvornik.

V testu glede na raziskavo Oxforda iz leta 2017 Branje stavkov z ustnic v divjini (glej spodaj) je metoda Video-To-Viseme dosegla stopnjo besedne napake 62.3 % v primerjavi z 69.5 % pri metodi Oxford.

Raziskovalci sklepajo, da uporaba večjega obsega besedilnih informacij v kombinaciji s preslikavo grafema v fonem in visema obljublja izboljšave v primerjavi z najsodobnejšimi sistemi avtomatiziranih strojev za branje z ustnic, hkrati pa priznavajo, da lahko uporabljene metode povzročijo celo boljši rezultati, če so vključeni v bolj izpopolnjene trenutne okvire.

Strojno vodeno branje z ustnic je bilo aktivno in stalno področje raziskav računalniškega vida in NLP v zadnjih dveh desetletjih. Med številnimi drugimi primeri in projekti je leta 2006 uporaba avtomatizirane programske opreme za branje z ustnic ujetih naslovov ko se uporablja za razlago tega, kar je Adolf Hitler govoril v nekaterih slavnih nemih filmih, posnetih na njegovem bavarskem zatočišču, čeprav se zdi, da je uporaba izginila v temo, odkar je (dvanajst let kasneje, Sir Peter Jackson zateklo človeškim bralcem z ustnic, da obnovijo pogovore posnetkov iz prve svetovne vojne v projektu obnove Ne bodo se postarali).

V 2017, Branje stavkov z ustnic v divjini, sodelovanje med univerzo Oxford in Googlovim raziskovalnim oddelkom za umetno inteligenco je ustvarilo AI za branje z ustnic sposoben pravilno sklepati o 48 % govora v videu brez zvoka, kjer bi človeški bralec z ustnic lahko dosegel le 12.4 % natančnost iz istega materiala. Manekenka je bila urjena na tisočih urah televizijskih posnetkov BBC.

To delo je sledilo a ločena Pobuda Oxford/Google iz prejšnjega leta z naslovom LipNet, arhitektura nevronske mreže, ki je preslikala video zaporedja spremenljive dolžine v besedilna zaporedja z uporabo Gated Recurrent Network (GRN), ki dodaja funkcionalnost osnovni arhitekturi ponavljajoče se nevronske mreže (RNN). Model je dosegel 4.1-kratno izboljšano zmogljivost v primerjavi s človeškimi bralniki z ustnic.

Poleg težave pri izvabljanju natančnega prepisa v realnem času se izziv tolmačenja govora iz videoposnetka poglobi, ko odstranite koristen kontekst, kot je zvok, posnetek z obrazom, ki je dobro osvetljen, in jezik/kulturo, kjer fonemi/ visemi so relativno različni.

Čeprav trenutno ni empiričnega razumevanja, katere jezike je najtežje brati z ustnic ob popolni odsotnosti zvoka, je japonščina glavni tekmec. Različni načini, na katere japonski domorodci (pa tudi nekateri drugi zahodno- in vzhodnoazijski domorodci) izkoriščajo obrazno mimiko proti vsebini svojega govora, jih že delajo večji izziv za sisteme za analizo razpoloženja.

Vendar je treba omeniti, da je večina znanstvene literature na to temo na splošno premišljen, nenazadnje tudi zato, ker celo dobronamerno objektivno raziskovanje na tem področju tvega, da preide v rasno profiliranje in širjenje obstoječih stereotipov.

Jeziki z visokim deležem guturalnih sestavin, kot npr Čečen in Nizozemskiso še posebej problematične za avtomatizirane tehnike izločanja govora, medtem ko kulture, kjer lahko govorec izrazi čustva ali spoštovanje s pogledom stran (spet na splošno v azijskih kulturah) dodajte še eno dimenzijo, pri kateri bodo morali raziskovalci umetne inteligence, ki berejo z ustnic, razviti dodatne metode "in-fillinga" iz drugih kontekstualnih namigov.

Sorodne teme:strojno učenje Raziskave prepoznavanje govora

Up Next

Plastična kirurgija za obraze, ki jih ustvari GAN

Ne zamudite

Pexip sodeluje z NVIDIA za ustvarjanje poglobljenih izkušenj video srečanj

Martin Anderson

Pisec o strojnem učenju, umetni inteligenci in velikih podatkih.
Osebno spletno mesto: martinanderson.ai
Kontakt: [e-pošta zaščitena]
Twitter: @manders_ai