Tekoäly
Huulienlukeminen visemejen ja koneoppimisen avulla

Teheranin tietokoneiden insinöörikoulun uusi tutkimus tarjoaa parannetun lähestymistavan haasteeseen luoda koneoppimisjärjestelmiä, jotka pystyvät lukemaan huulia.
Tutkimus, jonka otsikko on Visemejen avulla tapahtuva huulienlukeminen, raportoi, että uusi järjestelmä saavuttaa 4%:n parannuksen sanavirheen osalta verrattuna aiempiin vastaaviin malleihin. Järjestelmä käsittelee yleisen ongelman, joka liittyy hyödyllisen koulutusaineiston puutteeseen, kartoittamalla visemejä tekstisisältöön, joka on johdettu kuuden miljoonan näytteen OpenSubtitles-aineistosta käännettyjen elokuvien nimistä.
Visemi on visuaalinen vastine fonemiille, ja se on käytännössä ääni>kuva -kartoitus, joka voidaan muodostaa “ominaisuudeksi” koneoppimismallissa.

Visemien toiminta. Lähde: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/
Tutkijat alkoivat tutkimuksensa määrittämällä alhaisimman virheen määrän saatavilla olevissa aineistoissa ja kehittämällä visemijonot vakiintuneista kartoitusmenetelmistä. Vähitellen tämä prosessi kehittää visuaalisen sanastoa sanoille – vaikka on tarpeen määritellä tietyn visemin todennäköisyys eri sanojen osalta, jotka jakavat visemin (kuten “heart” ja “art”).
Kun kaksi identtistä sanaa tuottaa saman visemin, valitaan useimmin esiintyvä sana.
Malli perustuu perinteiseen järjestelmän sekvenssioppiin lisäämällä aliprosessointivaihe, jossa visemit ennustetaan tekstistä ja mallinnetaan omassa putkessa:

Ylempänä perinteiset sekvenssiopin menetelmät merkkimallissa; alhaalla Teheranin tutkimusmallin visemien merkkimallin lisäys. Lähde: https://arxiv.org/pdf/2104.04784.pdf
Mallia sovellettiin ilman visuaalista kontekstia LRS3-TED-aineistoon, joka julkaistiin Oxfordin yliopistosta vuonna 2018, ja huonoin sanavirheen määrä (WER) oli 24,29%.
Teheranin tutkimus sisältää myös grafemi-foneemi-muunnoksen käytön.
Testissä Oxfordin vuoden 2017 tutkimusta Huulienlukeminen lauseissa luonnossa vastaan Video-To-Viseme-menetelmä saavutti 62,3%:n sanavirheen määrän, verrattuna Oxfordin menetelmän 69,5%:iin.
Tutkijat päättelevät, että suuremman teksti-informaatiomäärän käyttäminen yhdessä grafemi-foneemi- ja visemikartoituksen kanssa lupailee parannuksia automaattisissa huulienlukemisjärjestelmissä, ja myöntävät, että käytetyt menetelmät voivat tuottaa vielä parempia tuloksia, kun ne yhdistetään nykyisiin kehittyneempiin kehyksiin.
Konepohjainen huulienlukeminen on ollut aktiivinen ja jatkuva ala tietokoneen näön ja NLP-tutkimuksessa viimeisen kahden vuosikymmenen ajan. Monien muiden esimerkkien ja projektien joukossa vuonna 2006 automaattisen huulienlukemisohjelmiston käyttö kaappasi otsikot, kun sitä käytettiin tulkitsemaan, mitä Adolf Hitler sanoi joissakin kuuluisissa mykkäelokuvissa, jotka oli otettu hänen baijerilaisella lomailupaikallaan, vaikka sovelluksen näyttää hävinneen unohduksiin siitä lähtien (kaksitoista vuotta myöhemmin Sir Peter Jackson turvautui ihmishuulienlukijoihin palauttaakseen WW1-elokuvan He eivät vanhene keskustelut).
Vuonna 2017 Huulienlukeminen lauseissa luonnossa, yhteistyössä Oxfordin yliopiston ja Google:n AI-tutkimusosaston kanssa, tuotti huulienlukemisai, joka pystyi oikein päättelemään 48%:n puheesta videossa ilman ääntä, kun taas ihmishuulienlukija saavutti vain 12,4%:n tarkin täsmäävyyden samasta aineistosta. Malli oli koulutettu tuhansilla tunteja BBC:n TV-aineistoa.
Tämä työ seurasi erillistä Oxfordin ja Google:n aloitetta edelliseltä vuodelta, jonka nimeksi tuli LipNet, joka oli neuroverkkomallin arkkitehtuuri, joka kartoitti videosekvenssejä muuttuvan pituisina tekstisekvensseihin Gated Recurrent Network (GRN):n avulla, joka lisää toiminnallisuutta perusarkkitehtuuriin Recurrent Neural Network (RNN):ssä. Malli saavutti 4,1-kertaisen parannuksen ihmishuulienlukijoihin verrattuna.
Ongelman, joka liittyy tarkin täsmäävän transkriptin tuottamiseen reaaliajassa, haaste, joka liittyy puheen tulkintaan videosta, syvenee, kun poistat hyödyllisen kontekstin, kuten äänen, “kasvojen eteen” -kuvaus, joka on hyvin valaistu, ja kieli/kulttuuri, jossa foneemit/visemit ovat suhteellisen erottuvia.
Vaikka ei ole vielä empiiristä ymmärrystä siitä, mitkä kielet ovat vaikeimmin huulienlukemista täydellisen äänettömänä, Japani on pääehdokas. Japanilaisten (sekä muiden länsi- ja itä-aasialaisten) kasvojen ilmeiden käyttäminen puheen sisällön vastaisesti tekee heistä suuremman haasteen mielentilan tunnistusjärjestelmiin.
On kuitenkin huomattava, että suurin osa tieteellisestä kirjallisuudesta aiheesta on yleensä varovainen, ei vähiten siksi, että jopa hyvää tarkoittava objektiivinen tutkimus tässä aihealueessa voi ylittää rodullisen profiloinnin ja olemassa olevien stereotyyppien levittämisen.
Kielet, joissa on suuri osuus kurkkukomponentteja, kuten tšetšeeni ja hollanti, ovat erityisen ongelmallisia automaattisille puheen erotteluille, kun taas kulttuurit, joissa puhuja voi ilmaista tunteita tai nöyryyttä katsomalla pois (jälleen useimmiten aasialaisissa kulttuureissa), lisäävät ulottuvuutta, jossa tekoälyhuulienlukemisen tutkijoiden on kehitettävä lisämenetelmiä “täyttämiseksi” muista kontekstuaalisista vihjeistä.













