stubbur AI hjálpar taugaveikluðum hátölurum að 'lesa herbergið' meðan á myndbandsráðstefnu stendur - Unite.AI
Tengja við okkur

Artificial Intelligence

AI hjálpar taugaveikluðum hátölurum að „lesa herbergið“ á meðan á myndráðstefnu stendur

mm
Uppfært on

Árið 2013 ákvað skoðanakönnun um algengar fælni að möguleikar á ræðumennsku væru verri en dauðahorfur fyrir meirihluta svarenda. Heilkennið er þekkt sem glossófóbía.

The COVID-drifinn fólksflutninga Allt frá „persónulegum“ fundum til aðdráttarráðstefna á netinu á kerfum eins og Zoom og Google Spaces hefur, furðu, ekki bætt ástandið. Þar sem fundurinn inniheldur mikinn fjölda þátttakenda skerðist náttúrulegt ógnarmatshæfni okkar vegna lágupplausnar raðir og tákna þátttakenda og erfiðleika við að lesa fíngerð sjónræn merki um andlitstjáningu og líkamstjáningu. Skype, til dæmis, hefur reynst lélegur vettvangur til að koma á framfæri vísbendingum án orða.

Áhrifin á frammistöðu í ræðumennsku af skynjuðum áhuga og svörun eru vel skjalfest núna, og innsæi augljóst fyrir flest okkar. Ógegnsæ viðbrögð áhorfenda geta valdið því að hátalarar hika og falla aftur að fyllingarræðu, ómeðvitað um hvort rök þeirra mæta samkomulagi, fyrirlitningu eða óáhuga, sem veldur oft óþægilegri upplifun fyrir bæði ræðumann og áheyrendur.

Undir þrýstingi frá óvæntri breytingu í átt að myndbandsfundum á netinu, innblásin af COVID takmörkunum og varúðarráðstöfunum, er vandamálið að öllum líkindum að versna og fjöldi bættra endurgjöfa áhorfenda hefur verið stungið upp á í tölvusýn og haft áhrif á rannsóknarsamfélög undanfarin tvö ár.

Vélbúnaðarmiðaðar lausnir

Flest af þessu felur hins vegar í sér viðbótarbúnað eða flókinn hugbúnað sem getur vakið upp persónuverndar- eða skipulagsvandamál - tiltölulega dýran eða á annan hátt takmarkaðan aðferðafræði sem var fyrir heimsfaraldurinn. Árið 2001 lagði MIT til Galvactivator, handborið tæki sem ályktar um tilfinningalegt ástand áhorfenda, prófað á dagslöngu málþingi.

Frá 2001, Galvactivator MIT, sem mældi leiðniviðbrögð húðar til að reyna að skilja viðhorf og þátttöku áhorfenda. Heimild: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Frá 2001, Galvactivator MIT, sem mældi leiðniviðbrögð húðar til að reyna að skilja viðhorf og þátttöku áhorfenda. Heimild: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Mikil fræðileg orka hefur líka farið í það mögulega uppsetning á „smellum“ sem áhorfendaviðbragðskerfi (ARS), ráðstöfun til að auka virka þátttöku áhorfenda (sem eykur sjálfkrafa þátttöku þar sem það neyðir áhorfandann í hlutverk virks endurgjafarhnúts), en sem einnig hefur verið hugsað sem leið til að hvetja ræðumenn .

Aðrar tilraunir til að „tengja“ hátalara og áhorfendur hafa innifalið hjartsláttarmælingar, notkun flókins búnaðar sem er borinn á líkamann til að nýta rafheilagreiningu, 'hressa metrar', byggt á tölvusjón tilfinningaþekking fyrir skrifborðsbundið starfsfólk, og notkun áhorfenda-senda broskörlum meðan á ræðu ræðumanns stendur.

Frá 2017, EngageMeter, sameiginlegt fræðilegt rannsóknarverkefni frá LMU München og háskólanum í Stuttgart. Heimild: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Frá 2017, EngageMeter, sameiginlegt fræðilegt rannsóknarverkefni frá LMU München og háskólanum í Stuttgart. Heimild: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Sem undirleit á hinu ábatasama sviði áhorfendagreiningar hefur einkageirinn haft sérstakan áhuga á mati á augnaráði og rakningu – kerfi þar sem hver áhorfendameðlimur (sem gæti aftur á móti þurft að tala), er háður augnmælingar sem vísir um þátttöku og samþykki.

Allar þessar aðferðir eru nokkuð hár-núningur. Mörg þeirra krefjast sérsniðins vélbúnaðar, rannsóknarstofuumhverfis, sérhæfðs og sérsmíðaðs hugbúnaðarramma og áskriftar að dýrum viðskiptalegum API - eða hvaða samsetningu þessara takmarkandi þátta sem er.

Þess vegna hefur þróun naumhyggjukerfa sem byggjast á fáu öðru en algengum verkfærum fyrir myndbandsfundi vakið áhuga á síðustu 18 mánuðum.

Skýrslugjafir Samþykki áhorfenda á næðislegan hátt

Í þessu skyni býður nýtt rannsóknarsamstarf á milli háskólans í Tókýó og Carnegie Mellon háskólans upp á nýtt kerfi sem getur fylgst með stöðluðum myndbandsfundaverkfærum (eins og Zoom) með því að nota aðeins vefmyndavélavirka vefsíðu þar sem létt augnaráð og staða matshugbúnaður er í gangi. Þannig er jafnvel komið í veg fyrir þörf á staðbundnum vafraviðbótum.

kinkar kolli og áætlaða athygli notandans er þýtt yfir í dæmigerð gögn sem eru sýnd aftur til ræðumannsins, sem gerir kleift að gera „lifandi“ lakmusprófun á því hversu mikið efnið vekur áhuga áhorfenda – og einnig að minnsta kosti óljósa vísbendingu um tímabil orðræðu þar sem ræðumaður gæti verið að missa áhuga áhorfenda.

Með CalmResponses er athygli notenda og kinka kolli bætt við hóp af endurgjöf áhorfenda og þýtt í sjónræna framsetningu sem getur gagnast fyrirlesaranum. Sjá innfellt myndband í lok greinarinnar fyrir frekari upplýsingar og dæmi. Heimild: https://www.youtube.com/watch?v=J_PhB4FCzk0

Með CalmResponses er athygli notenda og kinka kolli bætt við hóp af endurgjöf áhorfenda og þýtt í sjónræna framsetningu sem getur gagnast fyrirlesaranum. Sjá innfellt myndband í lok greinarinnar fyrir frekari upplýsingar og dæmi. Heimild: https://www.youtube.com/watch?v=J_PhB4FCzk0

Í mörgum fræðilegum aðstæðum, svo sem fyrirlestra á netinu, geta nemendur verið algjörlega óséðir af ræðumanni, þar sem þeir hafa ekki kveikt á myndavélum sínum vegna sjálfsmeðvitundar um bakgrunn sinn eða núverandi útlit. CalmResponses getur tekist á við þessa annars torkennilegu hindrun fyrir endurgjöf hátalara með því að segja frá því sem það veit um hvernig hátalarinn horfir á efnið og ef hann kinkar kolli, án þess að áhorfandinn þurfi að virkja myndavélina sína.

The pappír er titill CalmResponses: Sýna viðbrögð sameiginlegra áhorfenda í fjarsamskiptum, og er sameiginlegt verk tveggja vísindamanna frá UoT og eins frá Carnegie Mellon.

Höfundarnir bjóða upp á lifandi vef-undirstaða kynningu og hafa gefið út frumkóða hjá GitHub.

CalmResponses Framework

Áhugi CalmResponses á að kinka kolli, öfugt við aðrar mögulegar útfærslur á höfði, byggist á rannsóknum (sumar þeirra hrópa aftur til tímum Darwins) sem gefur til kynna að meira en 80% allra höfuðhreyfinga hlustenda samanstanda af því að kinka kolli (jafnvel þegar þeir eru það lýsa ágreiningi). Á sama tíma hafa augnaráðshreyfingar verið sýndar á fjölmargir rannsóknir að vera áreiðanleg vísitala vaxta eða þátttöku.

CalmResponses er útfært með HTML, CSS og JavaScript og samanstendur af þremur undirkerfum: áhorfendaviðskiptavini, hátalaraviðskiptavini og netþjóni. Viðskiptavinir áhorfenda senda augnaráð eða höfuðhreyfingargögn frá vefmyndavél notandans í gegnum WebSockets yfir skýjaforritsvettvanginn Heroku.

Áhorfendur kinka kolli sýnd til hægri í hreyfimynd undir CalmResponses. Í þessu tilviki er hreyfimyndin aðgengileg ekki aðeins fyrir ræðumann heldur alla áhorfendur.

Áhorfendur kinka kolli sýnd til hægri í hreyfimynd undir CalmResponses. Í þessu tilviki er hreyfimyndin aðgengileg ekki aðeins fyrir ræðumann heldur alla áhorfendur. Heimild: https://arxiv.org/pdf/2204.02308.pdf

Fyrir augnsporahluta verkefnisins notuðu rannsakendur WebGazer, léttur, JavaScript-undirstaða vafra-undirstaða augnrakningarrammi sem getur keyrt með lítilli leynd beint frá vefsíðu (sjá tengil hér að ofan fyrir eigin vefútfærslu vísindamannanna).

Þar sem þörfin fyrir einfalda útfærslu og grófa, uppsöfnuðu svörunargreiningu vegur þyngra en þörfin fyrir mikla nákvæmni við mat á augnaráði og stellingu, eru inntaksstöðugögnin jöfnuð í samræmi við meðalgildi áður en þau eru tekin til greina fyrir heildarsvörunarmatið.

Aðgerðin sem kinka kolli er metin í gegnum JavaScript bókasafnið clmtrackr, sem passar andlitslíkön við greint andlit í myndum eða myndböndum reglubundin kennileiti meðalbreyting. Í sparnaðarskyni og lítilli leynd er aðeins greind kennileiti fyrir nefið fylgst með virkum hætti í útfærslu höfunda, þar sem þetta er nóg til að fylgjast með kinkunaraðgerðum.

Hreyfing á nefoddsstöðu notandans skapar slóð sem stuðlar að viðbragðshópi áhorfenda sem tengist kinkandi kolli, sem er sýndur á samsettan hátt fyrir alla þátttakendur.

Hreyfing á nefoddsstöðu notandans skapar slóð sem stuðlar að viðbragðshópi áhorfenda sem tengist kinkandi kolli, sem er sýndur á samsettan hátt fyrir alla þátttakendur.

Hitakort

Þó að kinkandi virkni sé táknuð með kraftmiklum hreyfanlegum punktum (sjá myndir hér að ofan og myndskeið í lokin), er sjónræn athygli tilkynnt í skilmálar af hitakorti sem sýnir ræðumanni og áheyrendum hvar almenna athyglispunkturinn beinist að sameiginlegum kynningarskjánum eða myndbandsráðstefnuumhverfi.

Allir þátttakendur geta séð hvar almennri athygli notenda er beint. Í blaðinu er ekkert minnst á hvort þessi virkni sé tiltæk þegar notandinn getur séð „gallerí“ annarra þátttakenda, sem gæti leitt í ljós sérstaka áherslu á einn tiltekinn þátttakanda, af ýmsum ástæðum.

Allir þátttakendur geta séð hvar almennri athygli notenda er beint. Í blaðinu er ekkert minnst á hvort þessi virkni sé tiltæk þegar notandinn getur séð „gallerí“ annarra þátttakenda, sem gæti leitt í ljós sérstaka áherslu á einn tiltekinn þátttakanda, af ýmsum ástæðum.

Próf

Tvö prófunarumhverfi voru mótuð fyrir CalmResponses í formi þegjandi brottnámsrannsóknar, þar sem notaðar voru þrjár mismunandi aðstæður: Í 'skilyrði B' (grunnlína) endurtóku höfundarnir dæmigerðan netnemafyrirlestur þar sem meirihluti nemenda heldur vefmyndavélum sínum snúið. burt, og ræðumaðurinn hefur enga getu til að sjá andlit áhorfenda; í 'Ástandi CR-E' gat ræðumaðurinn séð endurgjöf augnaráðs (hitakort); í 'Skilyrði CR-N' gat ræðumaðurinn séð bæði kinkað kolli og augnaráðið frá áhorfendum.

Fyrsta tilraunasviðsmyndin samanstóð af ástandi B og ástandi CR-E; annað samanstóð af skilyrði B og skilyrði CR-N. Viðbrögð fengust bæði frá fyrirlesurum og áheyrendum.

Í hverri tilraun voru þrír þættir metnir: hlutlægt og huglægt mat á kynningunni (þar á meðal spurningalisti frá fyrirlesara um tilfinningar þeirra um hvernig kynningin gekk fyrir sig); fjöldi atburða í „fyllingartali“, sem gefur til kynna augnabliks óöryggi og fordóma; og eigindlegar athugasemdir. Þessi viðmið eru algengar matsmenn um talgæði og kvíða ræðumanna.

Prófunarhópurinn samanstóð af 38 manns á aldrinum 19-44 ára, þar af 29 karlar og níu konur með meðalaldur 24.7, allir japönsku eða kínversku, og allir reiprennandi í japönsku. Þeim var skipt af handahófi í fimm hópa með 6-7 þátttakendum og enginn einstaklinganna þekkti hver annan persónulega.

Prófin voru framkvæmd á Zoom, þar sem fimm fyrirlesarar fluttu kynningar í fyrstu tilrauninni og sex í þeirri seinni.

Fyllingarskilyrði merkt sem appelsínugult kassar. Almennt séð féll fylliefni í hæfilegu hlutfalli við aukna endurgjöf áhorfenda frá kerfinu.

Fyllingarskilyrði merkt sem appelsínugult kassar. Almennt séð féll fylliefni í hæfilegu hlutfalli við aukna endurgjöf áhorfenda frá kerfinu.

Rannsakendur taka fram að fylliefni eins hátalara minnkuðu verulega og að í „skilyrði CR-N“ sagði ræðumaðurinn sjaldan útfyllingarsetningar. Sjá blaðið fyrir mjög ítarlegar og nákvæmar niðurstöður sem greint er frá; þó voru mest áberandi niðurstöður í huglægu mati frá fyrirlesurum og áheyrendum.

Ummæli áhorfenda voru meðal annars:

„Mér fannst ég taka þátt í kynningunum“ [AN2], „Ég var ekki viss um að ræður ræðumanna væru betri, en ég fann fyrir samheldni frá sjónrænum höfuðhreyfingum annarra. [AN6]

„Ég var ekki viss um að ræður ræðumanna væru betri, en ég fann fyrir samheldni frá sjónrænum höfuðhreyfingum annarra.

Rannsakendur taka fram að kerfið kynnir nýja tegund af gervi hléi í kynningu ræðumanns, þar sem ræðumaðurinn er hneigður til að vísa til sjónkerfisins til að meta endurgjöf áhorfenda áður en lengra er haldið.

Þeir benda einnig á eins konar „hvíta feldsáhrif“, sem erfitt er að forðast við tilraunaaðstæður, þar sem sumir þátttakendur töldu sig takmarkaða af hugsanlegum öryggisáhrifum þess að fylgjast með líffræðilegum tölfræðigögnum.

Niðurstaða

Einn áberandi kostur í kerfi eins og þessu er að öll óstöðluð viðbótartækni sem þarf fyrir slíka nálgun hverfur algjörlega eftir að notkun þeirra er lokið. Engar vafraviðbætur eru eftir sem þarf að fjarlægja, eða til að vekja efasemdir í huga þátttakenda um hvort þeir eigi að vera áfram á kerfum sínum; og það er engin þörf á að leiðbeina notendum í gegnum uppsetningarferlið (þó að vefur-undirstaða ramma krefst einnar eða tvær mínútur af fyrstu kvörðun af notanda), eða að vafra um möguleika notenda að hafa ekki fullnægjandi heimildir til að setja upp staðbundinn hugbúnað, þ.mt vafrabyggðar viðbætur og viðbætur.

Þrátt fyrir að metnar andlits- og augnhreyfingar séu ekki eins nákvæmar og þær gætu verið við aðstæður þar sem hægt væri að nota sérstaka staðbundna vélanámsramma (eins og YOLO röðina), þá veitir þessi nánast núningslausa nálgun við mat áhorfenda fullnægjandi nákvæmni fyrir víðtæka tilfinninga- og afstöðugreiningu. í dæmigerðum myndfundaaðstæðum. Umfram allt er það mjög ódýrt.

Skoðaðu tilheyrandi verkefnismyndband hér að neðan til að fá frekari upplýsingar og dæmi.

CalmResponses: Sýna viðbrögð sameiginlegra áhorfenda í fjarsamskiptum

 

Fyrst birt 11. apríl 2022.