Povežite se s nama

Umjetna inteligencija

Čitanje s usana pomoću Visemesa i strojnog učenja

mm
HAL čita s usana u 2001.: Odiseja u svemiru (1968.)

Novo istraživanje Škole računalnog inženjerstva u Teheranu nudi poboljšani pristup izazovu stvaranja sustava za strojno učenje koji mogu čitati s usana.

The papir, pravo Čitanje s usana korištenjem Viseme dekodiranja, izvješćuje da novi sustav postiže poboljšanje od 4% u stopi pogrešaka riječi u odnosu na najbolje slične prethodne modele. Sustav rješava opći nedostatak korisnih podataka o obuci u ovom sektoru mapiranjem visemi na tekstualni sadržaj izveden iz šest milijuna uzoraka u skupu podataka OpenSubtitles prevedenih filmskih naslova.

Visem je vizualni ekvivalent fonema, zapravo zvučna> slika kartografija koji može predstavljati 'značajku' u modelu strojnog učenja.

Visemes gif

Visemes na djelu. Izvor: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Istraživači su započeli utvrđivanjem najniže stope pogreške na dostupnim skupovima podataka i razvojem nizova visema iz utvrđenih postupaka mapiranja. Postupno, ovaj proces razvija vizualni leksikon riječi – iako je potrebno definirati vjerojatnosti točnosti za različite riječi koje dijele isti visem (kao što su 'srce' i 'umjetnost').

Dekodirani visemi

Viseme izvađene iz teksta. Izvor: https://arxiv.org/pdf/2104.04784.pdf

Gdje dvije identične riječi rezultiraju istim visemom, odabire se riječ koja se najčešće pojavljuje.

Model se nadovezuje na tradicionalno od niza do niza učenje dodavanjem faze potprocesiranja u kojoj se visemi predviđaju iz teksta i modeliraju u namjenskom cjevovodu:

Viseme architecture čitanje s usana

Gore, tradicionalne metode od sekvence do sekvence u modelu znakova; u nastavku, dodatak visemskog modeliranja karaktera u teheranskom istraživačkom modelu. Izvor: https://arxiv.org/pdf/2104.04784.pdf

Model je primijenjen bez vizualnog konteksta nasuprot Skup podataka LRS3-TED, otpušten sa Sveučilišta Oxford 2018., s najgorom stopom pogreške u riječi (WER) koja je dobila respektabilnih 24.29%.

Istraživanje u Teheranu također uključuje upotrebu a grafem-fonem konverter.

U testu protiv istraživanja Oxforda iz 2017 Čitanje rečenica s usana u divljini (vidi dolje), metoda Video-To-Viseme postigla je stopu pogreške riječi od 62.3%, u usporedbi s 69.5% za Oxford metodu.

Istraživači zaključuju da upotreba većeg volumena tekstualnih informacija, u kombinaciji s mapiranjem grafema u fonem i visema, obećava poboljšanja u odnosu na stanje tehnike u sustavima automatiziranih strojeva za čitanje s usana, istovremeno priznajući da korištene metode mogu proizvesti čak i bolji rezultati kada su uključeni u sofisticiranije postojeće okvire.

Strojno vođeno čitanje s usana bilo je aktivno i kontinuirano područje istraživanja računalnog vida i NLP-a u posljednja dva desetljeća. Među mnogim drugim primjerima i projektima, 2006. upotreba automatiziranog softvera za čitanje s usana uhvaćeni naslovi kada se koristi za tumačenje onoga što je Adolf Hitler govorio u nekim od poznatih nijemih filmova snimljenih u njegovom bavarskom povlačenju, iako se čini da je primjena nestala u mraku od (dvanaest godina kasnije, Sir Peter Jackson pribjegao ljudskim čitačima s usana kako bi obnovili razgovore snimaka iz Prvog svjetskog rata u projektu obnove Oni neće ostariti).

U 2017, Čitanje rečenica s usana u divljini, suradnja između Sveučilišta Oxford i Googleovog odjela za istraživanje umjetne inteligencije proizvela je AI za čitanje s usana sposoban ispravno zaključiti 48% govora u videu bez zvuka, gdje ljudski čitač s usana može postići samo 12.4% točnosti iz istog materijala. Manekenka je trenirana na tisućama sati BBC TV snimaka.

Ovaj se rad nadovezao na a zaseban Oxford/Google inicijativa iz prethodne godine pod nazivom LipNet, arhitektura neuronske mreže koja je mapirala video sekvence promjenjive duljine u tekstualne sekvence pomoću Gated Recurrent Network (GRN), koja dodaje funkcionalnost osnovnoj arhitekturi Recurrent Neural Network (RNN). Model je postigao 4.1x bolju izvedbu u odnosu na ljudske čitače s usana.

Osim problema dobivanja točnog prijepisa u stvarnom vremenu, izazov tumačenja govora iz videa produbljuje se kako uklanjate koristan kontekst, poput zvuka, snimke licem u oči koje su dobro osvijetljene i jezik/kulturu u kojoj fonemi/ viseme su relativno različite.

Iako trenutačno ne postoji empirijsko razumijevanje koji su jezici najteži za čitanje s usana u potpunoj odsutnosti zvuka, japanski je glavni natjecatelj. Različiti načini na koje japanski domoroci (kao i neki drugi domoroci zapadne i istočne Azije) iskorištavaju izraze lica u odnosu na sadržaj svog govora već ih čine veći izazov za sustave analize sentimenta.

Međutim, vrijedi napomenuti da velik dio znanstvene literature o ovoj temi općenito jest pažljiv, ne samo zato što čak i dobronamjerno objektivno istraživanje u ovoj sferi riskira prijeći u rasno profiliranje i promicanje postojećih stereotipa.

Jezici s visokim udjelom guturalnih komponenti, kao npr čečenski istodobno Nizozemac, posebno su problematični za automatizirane tehnike izdvajanja govora, dok kulture u kojima govornik može izraziti emocije ili poštovanje gledanjem u stranu (opet, općenito u azijskim kulturama) dodati još jednu dimenziju u kojoj će istraživači AI čitanja s usana morati razviti dodatne metode 'ispunjavanja' iz drugih kontekstualnih tragova.

Pisac o strojnom učenju, stručnjak za područje sinteze ljudske slike. Bivši voditelj istraživačkog sadržaja na Metaphysic.ai.
Osobna stranica: martinanderson.ai
Kontaktirajte nas na: [e-pošta zaštićena]
Twitter: @manders_ai