Connect with us

Inteligență artificială

Citirea buzelor cu viseme și învățare automată

mm
HAL reads lips in 2001: A Space Odyssey (1968)

O nouă cercetare de la Școala de Inginerie a Calculatoarelor din Teheran oferă o abordare îmbunătățită a provocării de a crea sisteme de învățare automată capabile să citească buzele.

Articolul, intitulat Citirea buzelor folosind decodarea visemelor, raportează că noul sistem obține o îmbunătățire de 4% a ratei de eroare a cuvintelor față de cel mai bun model similar anterior. Sistemul abordează lipsa generală de date de antrenare utile în acest sector prin maparea visemelor la conținutul text derivat din cele șase milioane de exemple din setul de date OpenSubtitles de titluri de filme traduse.

Un visemă este echivalentul vizual al unui fonem, efectiv o mapare audio>imagine care poate constitui un “caracteristică” într-un model de învățare automată.

Viseme în acțiune

Viseme în acțiune. Sursă: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Cercetătorii au început prin stabilirea ratei de eroare minimă pe seturile de date disponibile și prin dezvoltarea secvențelor de viseme din procedurile de mapare stabilite. Treptat, acest proces dezvoltă un lexicon vizual al cuvintelor – deși este necesar să se definească probabilitățile de acuratețe pentru cuvintele diferite care împărtășesc un visemă (cum ar fi “inimă” și “artă”).

Viseme decodate

Viseme extrase din text. Sursă: https://arxiv.org/pdf/2104.04784.pdf

În cazul în care două cuvinte identice rezultă în același visemă, se selectează cuvântul cel mai frecvent.

Modelul se bazează pe învățarea secvențială tradițională prin adăugarea unei etape de prelucrare în care visemele sunt prezise din text și modelate într-un pipeline dedicat:

Arhitectura visemelor pentru citirea buzelor

Mai sus, metodele tradiționale de secvență-la-secvență într-un model de caracter; mai jos, adăugarea modelării caracterelor de viseme în modelul de cercetare de la Teheran. Sursă: https://arxiv.org/pdf/2104.04784.pdf

Modelul a fost aplicat fără context vizual împotriva setului de date LRS3-TED, eliberat de Universitatea Oxford în 2018, cu cea mai proastă rată de eroare a cuvintelor (WER) obținută de 24,29%.

Cercetarea de la Teheran incorporează, de asemenea, utilizarea unui convertoare grafem-fonem.

Într-un test împotriva cercetării Oxford din 2017 Citirea propozițiilor de pe buze în sălbăticie (a se vedea mai jos), metoda Video-La-Visemă a obținut o rată de eroare a cuvintelor de 62,3%, comparativ cu 69,5% pentru metoda Oxford.

Cercetătorii concluzionează că utilizarea unui volum mai mare de informații text, combinat cu maparea grafem-fonem și visemă, promite îmbunătățiri față de starea actuală a sistemelor automate de citire a buzelor, în timp ce recunosc că metodele utilizate pot produce rezultate și mai bune atunci când sunt integrate în cadre mai sofisticate actuale.

Citirea buzelor condusă de mașină a fost o zonă activă și în curs de desfășurare de cercetare în domeniul viziunii calculate și al NLP în ultimele două decenii. Printre multe alte exemple și proiecte, în 2006, utilizarea software-ului de citire automată a buzelor a capturat titlurile atunci când a fost utilizat pentru a interpreta ce spunea Adolf Hitler în unele dintre celebrele filme mute luate la reședința sa bavareză, deși aplicația pare să fi dispărut în obscuritate de atunci (douăsprezece ani mai târziu, Sir Peter Jackson a recurs la cititori de buze umani pentru a restaura conversațiile filmelor din Primul Război Mondial în proiectul de restaurare They Shall Not Grow Old)).

În 2017, Citirea propozițiilor de pe buze în sălbăticie, o colaborare între Universitatea Oxford și divizia de cercetare AI a Google, a produs un model de citire a buzelor capabil să inferă corect 48% din vorbirea din videoclipuri fără sunet, unde un cititor de buze uman putea atinge doar o acuratețe de 12,4% din același material. Modelul a fost antrenat pe mii de ore de filmări TV BBC.

Această lucrare a urmat unei inițiative separate Oxford/Google din anul precedent, intitulată LipNet, o arhitectură de rețea neurală care a mapat secvențe de videoclipuri de lungime variabilă la secvențe de text utilizând o rețea recurentă cu poartă (GRN), care adaugă funcționalitate la arhitectura de bază a unei rețele neuronale recurente (RNN). Modelul a obținut o performanță îmbunătățită de 4,1 ori față de cititorii de buze umani.

Pe lângă problema de a obține o transcriere precisă în timp real, provocarea de a interpreta vorbirea din videoclipuri se adâncește pe măsură ce se elimină contextul util, cum ar fi sunetul, filmarea “față în față” care este bine iluminată și o limbă/cultură în care fonemele/visemele sunt relativ distincte.

Deși în prezent nu există o înțelegere empirică a faptului că limbile sunt cele mai greu de citit pe buze în absența completă a sunetului, japoneza este un principal concurent. Modalitățile diferite în care japonezii nativi (precum și anumiți alți nativi din Asia de Est și de Vest) utilizează expresiile faciale împotriva conținutului discursului lor deja îi fac o provocare mai mare pentru sistemele de recunoaștere a sentimentelor.

Cu toate acestea, este important de remarcat că o mare parte a literaturii științifice pe această temă este în general prudentă, nu în ultimul rând pentru că orice cercetare obiectivă, chiar și cu intenții bune, din această sferă riscă să treacă în profilarea rasială și promovarea stereotipurilor existente.

Limbile cu o proporție ridicată de componente guturale, cum ar fi cecenă și neerlandeză, sunt deosebit de problematice pentru tehniciile automate de extragere a vorbirii, în timp ce culturile în care vorbitorul poate exprima emoție sau deferentă prin privirea în altă parte (din nou, în general în culturi asiatice) adaugă o altă dimensiune în care cercetătorii de citire a buzelor AI vor trebui să dezvolte metode suplimentare de “umplere” din alte indicii contextuale.

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.