stub Skaitymas iš lūpų naudojant Visemes ir mašininį mokymąsi – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

Lūpų skaitymas naudojant Visemes ir mašininis mokymasis

mm
Atnaujinta on
HAL skaito iš lūpų 2001 m.: Kosminė odisėja (1968)

Nauji Teherano kompiuterių inžinerijos mokyklos tyrimai siūlo patobulintą požiūrį į iššūkį sukurti mašininio mokymosi sistemas, galinčias skaityti iš lūpų.

Šios popierius, pavadinimu Lūpų skaitymas naudojant Viseme dekodavimą, praneša, kad naujojoje sistemoje žodžių klaidų lygis pagerėjo 4 %, palyginti su geriausiais panašiais ankstesniais modeliais. Sistema sprendžia bendrą naudingų mokymo duomenų trūkumą šiame sektoriuje sudarydama žemėlapius visemes į tekstinį turinį, gautą iš šešių milijonų išverstų filmų pavadinimų OpenSubtitles duomenų rinkinio pavyzdžių.

Viseme yra vaizdinis fonemos atitikmuo, iš esmės garso>vaizdas kartografavimas tai gali būti mašininio mokymosi modelio „ypatybė“.

Visemes gif

Visemes veikia. Šaltinis: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Tyrėjai pradėjo nustatydami mažiausią turimų duomenų rinkinių klaidų lygį ir sukurdami visemų sekas pagal nustatytas kartografavimo procedūras. Palaipsniui šis procesas sukuria vaizdinę žodžių leksiką – nors būtina apibrėžti skirtingų žodžių, kurie turi bendrą visemą (pvz., „širdis“ ir „menas“), tikslumo tikimybes.

Dekoduotas visemes

Visemes ištrauktas iš teksto. Šaltinis: https://arxiv.org/pdf/2104.04784.pdf

Kai du identiški žodžiai sukelia tą patį visemą, pasirenkamas dažniausiai pasitaikantis žodis.

Modelis remiasi tradiciniu seka į seką mokymasis pridedant antrinio apdorojimo etapą, kai visemos nuspėjamos iš teksto ir modeliuojamos tam skirtame konvejeryje:

Viseme architektūros skaitymas iš lūpų

Aukščiau tradiciniai iš sekos į seką metodai simbolių modelyje; žemiau, Teherano tyrimo modelyje pridėtas viseme charakterio modeliavimas. Šaltinis: https://arxiv.org/pdf/2104.04784.pdf

Modelis buvo pritaikytas be vizualinio konteksto prieš LRS3-TED duomenų rinkinys, išleido Iš Oksfordo universiteto 2018 m. su blogiausiu žodžių klaidų lygiu (WER) gavo garbingą 24.29 proc.

Teherano tyrimai taip pat apima a grafema-fonema keitiklis.

Atliekant bandymą su 2017 m. Oksfordo tyrimu Lūpų skaitymas laukinėje gamtoje (žr. toliau), naudojant „Video-To-Viseme“ metodą, žodžių klaidų lygis buvo 62.3%, palyginti su 69.5% Oksfordo metodu.

Tyrėjai daro išvadą, kad didesnio teksto informacijos kiekio naudojimas kartu su grafemos-fonemos ir visemos atvaizdavimu žada patobulinimus, palyginti su šiuolaikinėmis automatizuotomis lūpų skaitymo mašinų sistemomis, tuo pačiu pripažįstant, kad naudojami metodai gali sukurti net geresnių rezultatų įtraukus į sudėtingesnes dabartines sistemas.

Mašinų valdomas skaitymas iš lūpų buvo aktyvi ir nuolatinė kompiuterinio matymo ir NLP tyrimų sritis pastaruosius du dešimtmečius. Be daugelio kitų pavyzdžių ir projektų, 2006 m. buvo naudojama automatizuota skaitymo iš lūpų programinė įranga užfiksuotos antraštės kai naudojamas interpretuoti tai, ką Adolfas Hitleris kalbėjo kai kuriuose garsiuose nebyliuose filmuose, nufilmuotuose jo pasitraukimo Bavarijoje metu, nors atrodo, kad taikymas išnyko nuo tada (po dvylikos metų seras Peteris Jacksonas griebėsi žmonių lūpų skaitytojams atkurti Pirmojo pasaulinio karo filmuotos medžiagos pokalbius restauravimo projekte Jie nepasens).

2017 metais Lūpų skaitymas laukinėje gamtoje, bendradarbiaujant Oksfordo universitetui ir „Google“ AI tyrimų padaliniui, buvo sukurtas a AI skaitymas iš lūpų gali teisingai nustatyti 48 % vaizdo įrašo kalbos be garso, o iš lūpų skaitytuvas iš tos pačios medžiagos galėjo pasiekti tik 12.4 % tikslumą. Modelis buvo apmokytas tūkstančius valandų BBC televizijos filmuotos medžiagos.

Šis darbas tęsėsi nuo a atskiras Praėjusių metų Oksfordo/Google iniciatyva, pavadinta LipNet, neuroninio tinklo architektūra, kuri kintamo ilgio vaizdo įrašų sekas susiejo su teksto sekomis, naudodama Gated Recurrent Network (GRN), kuri papildo bazinę pasikartojančio neuroninio tinklo (RNN) architektūrą. Modelis pasiekė 4.1 karto didesnį našumą, palyginti su žmogaus lūpų skaitytuvu.

Be tikslaus nuorašo realiuoju laiku išgavimo problemos, kalbos interpretavimo iš vaizdo įrašo iššūkis didėja, kai pašalinate naudingą kontekstą, pvz., garsą, gerai apšviestą filmuotą medžiagą ir kalbą / kultūrą, kurioje fonemos / visemos yra gana skirtingos.

Nors šiuo metu nėra empirinio supratimo, kurias kalbas sunkiausia skaityti iš lūpų į lūpas, kai nėra garso, japonų kalba yra pagrindinis varžovas. Įvairūs būdai, kuriais japonų vietiniai gyventojai (taip pat kai kurie kiti Vakarų ir Rytų Azijos vietiniai gyventojai) naudoja veido išraiškas prieš savo kalbos turinį, jau daro juos didesnis iššūkis sentimentų analizės sistemoms.

Tačiau verta paminėti, kad didžioji dalis mokslinės literatūros šia tema yra apskritai apdairus, ypač todėl, kad net gerai apgalvoti objektyvūs šios srities tyrimai gali pereiti į rasinį profiliavimą ir esamų stereotipų sklaidą.

Kalbos, turinčios didelę gutralinių komponentų dalį, pvz Čečėnijos ir olandų, yra ypač problemiški naudojant automatinius kalbos ištraukimo būdus, o kultūrose, kuriose kalbėtojas gali išreikšti emocijas ar pagarbą nukreipdamas žvilgsnį (vėlgi, paprastai Azijos kultūrose) pridėkite dar vieną aspektą, kur AI tyrėjai, skaitantys iš lūpų, turės sukurti papildomus metodus, kaip „papildyti“ iš kitų kontekstinių užuominų.