ciot Citirea pe buze cu Visemes și Machine Learning - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Citirea pe buze cu Visemes și Machine Learning

mm
Actualizat on
HAL citește pe buze în 2001: A Space Odyssey (1968)

Noile cercetări de la Școala de Inginerie Informatică din Teheran oferă o abordare îmbunătățită a provocării de a crea sisteme de învățare automată capabile să citească pe buze.

hârtie, intitulat Citirea pe buze folosind decodarea Viseme, raportează că noul sistem realizează o îmbunătățire cu 4% a ratei de eroare a cuvintelor față de cele mai bune modele anterioare similare. Sistemul abordează lipsa generală de date utile de instruire în acest sector prin cartografiere viseme la conținut text derivat din cele șase milioane de mostre din setul de date OpenSubtitles de titluri de filme traduse.

Un visem este echivalentul vizual al unui fonem, efectiv o imagine audio> cartografiere care poate constitui o „funcție” într-un model de învățare automată.

Visemes gif

Visemes în acţiune. Sursa: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Cercetătorii au început prin a stabili cea mai mică rată de eroare pe seturile de date disponibile și prin a dezvolta secvențe de viseme din procedurile de cartografiere stabilite. Treptat, acest proces dezvoltă un lexicon vizual al cuvintelor – deși este necesar să se definească probabilitățile de acuratețe pentru diferite cuvinte care au în comun un visem (cum ar fi „inima” și „arta”).

Viseme decodificate

Viseme extrase din text. Sursă: https://arxiv.org/pdf/2104.04784.pdf

Acolo unde două cuvinte identice rezultă în același visem, este selectat cuvântul care apare cel mai frecvent.

Modelul se bazează pe tradițional secvență la secvență învățarea prin adăugarea unei etape de sub-procesare în care visemele sunt prezise din text și modelate într-o conductă dedicată:

Viseme arhitectură citire pe buze

Mai sus, metode tradiționale secvență-la-secvență într-un model de caractere; mai jos, adăugarea modelării caracterelor viseme în modelul de cercetare de la Teheran. Sursă: https://arxiv.org/pdf/2104.04784.pdf

Modelul a fost aplicat fără context vizual împotriva Setul de date LRS3-TED, eliberat de la Universitatea Oxford în 2018, cu cea mai proastă rată de eroare a cuvintelor (WER) a obținut un respectabil 24.29%.

Cercetarea de la Teheran include, de asemenea, utilizarea a grafem-la-fonem convertor.

Într-un test împotriva cercetării Oxford din 2017 Propoziții de citire pe buze în sălbăticie (vezi mai jos), metoda Video-To-Viseme a atins o rată de eroare a cuvintelor de 62.3%, comparativ cu 69.5% pentru metoda Oxford.

Cercetătorii concluzionează că utilizarea unui volum mai mare de informații text, combinată cu maparea grafem-la-fonem și visem, promite îmbunătățiri față de stadiul tehnicii în sistemele automate de citire a buzelor, recunoscând în același timp că metodele utilizate pot produce chiar și rezultate mai bune atunci când sunt încorporate în cadrele actuale mai sofisticate.

Citirea pe buze condusă de mașini a fost o zonă activă și continuă a vederii computerizate și a cercetării NLP în ultimele două decenii. Printre multe alte exemple și proiecte, În 2006, utilizarea software-ului automat de citire a buzelor titluri capturate când era folosit pentru a interpreta ceea ce spunea Adolf Hitler în unele dintre celebrele filme mute realizate la retragerea sa din Bavaria, deși aplicația pare să fi dispărut în obscuritate de atunci (doisprezece ani mai târziu, Sir Peter Jackson recurs cititorilor de buze umani pentru a restabili conversațiile din filmările Primului Război Mondial în proiectul de restaurare Ei nu vor îmbătrâni).

În 2017, Propoziții de citire pe buze în sălbăticie, o colaborare între Universitatea Oxford și divizia de cercetare AI a Google a produs a AI pentru citirea buzelor capabil să deducă corect 48% din vorbire în videoclipuri fără sunet, unde un cititor de buze uman ar putea atinge doar o precizie de 12.4% din același material. Modelul a fost antrenat pe mii de ore de filmări de la BBC TV.

Această lucrare a urmat de la a distinct Inițiativa Oxford/Google din anul precedent, intitulată LipNet, o arhitectură de rețea neuronală care a mapat secvențe video de lungime variabilă la secvențe de text folosind o rețea recurentă Gated (GRN), care adaugă funcționalitate arhitecturii de bază a unei rețele neuronale recurente (RNN). Modelul a obținut o performanță îmbunătățită de 4.1 ori față de cititoarele de buze umane.

Pe lângă problema de a obține o transcriere corectă în timp real, provocarea interpretării vorbirii din video se adâncește pe măsură ce eliminați contextul util, cum ar fi audio, filmări „față în față” care sunt bine iluminate și o limbă/cultură în care fonemele/ visemele sunt relativ distincte.

Deși în prezent nu există o înțelegere empirică a ce limbi sunt cele mai greu de citit pe buze în absența completă a sunetului, japoneză este un concurent principal. Diferitele moduri în care nativii japonezi (precum și alți nativi din Asia de Vest și de Est) folosesc expresiile faciale împotriva conținutului discursului lor îi fac deja un provocare mai mare pentru sistemele de analiză a sentimentelor.

Cu toate acestea, merită remarcat faptul că o mare parte din literatura științifică pe această temă este în general circumspect, nu în ultimul rând pentru că chiar și cercetarea obiectivă bine intenționată în această sferă riscă să treacă în profilarea rasială și promulgarea stereotipurilor existente.

Limbi cu o proporție mare de componente guturale, cum ar fi Cecenă și Olandeză, sunt deosebit de problematice pentru tehnicile automate de extracție a vorbirii, în timp ce culturile în care vorbitorul poate exprima emoție sau respect prin privirea în altă parte (din nou, în general, în culturile asiatice) adaugă o altă dimensiune în care cercetătorii care citesc buzele AI vor trebui să dezvolte metode suplimentare de „completare” din alte indicii contextuale.