Følg os

Kunstig intelligens

AI hjælper nervøse højttalere med at 'læse rummet' under videokonferencer

mm

I 2013 fastslog en meningsmåling om almindelige fobier, at udsigten til offentlige taler var værre end udsigten til døden for størstedelen af ​​de adspurgte. Syndromet er kendt som glossofobi.

Den COVID-drevne migration fra 'personlige' møder til online zoom-konferencer på platforme som Zoom og Google Spaces har overraskende nok ikke forbedret situationen. Hvor mødet indeholder et stort antal deltagere, er vores naturlige trusselsvurderingsevner svækket af deltagernes rækker og ikoner i lav opløsning og vanskeligheden ved at læse subtile visuelle signaler af ansigtsudtryk og kropssprog. Skype, for eksempel, har vist sig at være en dårlig platform til at formidle ikke-verbale signaler.

Effekterne af opfattet interesse og lydhørhed på præstationer for offentlig tale er veldokumenterede nu, og intuitivt indlysende for de fleste af os. Uigennemsigtig publikumsrespons kan få højtalerne til at tøve og falde tilbage til udfyldningstale, uvidende om, hvorvidt deres argumenter møder enighed, foragt eller uinteresse, hvilket ofte giver en ubehagelig oplevelse for både taleren og deres lyttere.

Under pres fra det uventede skift i retning af online videokonferencer inspireret af COVID-restriktioner og forholdsregler, bliver problemet uden tvivl værre, og en række forbedrende publikumsfeedback-ordninger er blevet foreslået i computervisionen og påvirker forskningsmiljøer i løbet af de sidste par år.

Hardware-fokuserede løsninger

De fleste af disse involverer dog ekstra udstyr eller kompleks software, der kan rejse privatlivs- eller logistikproblemer - relativt høje omkostninger eller på anden måde ressourcebegrænsede tilgangsstile, der går forud for pandemien. I 2001 foreslog MIT Galvaktivator, en håndbåret enhed, der udleder den følelsesmæssige tilstand hos publikumsdeltageren, testet under et dagslangt symposium.

Fra 2001, MIT's Galvactivator, som målte hudens ledningsevnerespons i et forsøg på at forstå publikums følelser og engagement. Kilde: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Fra 2001, MIT's Galvactivator, som målte hudens ledningsevnerespons i et forsøg på at forstå publikums følelser og engagement. Kilde: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Der er også viet megen akademisk energi til det mulige udrulning af 'klikkere' som et Audience Response System (ARS), en foranstaltning til at øge publikums aktive deltagelse (hvilket automatisk øger engagementet, da det tvinger seeren ind i rollen som en aktiv feedbackknude), men som også er blevet tænkt som et middel til opmuntring af højttalere .

Andre forsøg på at 'forbindelse' taler og publikum har inkluderet pulsmåling, brug af komplekst kropsbåret udstyr til at udnytte elektroencefalografi, 'cheer meter', computer-vision-baseret følelsesgenkendelse for skrivebordsbundne arbejdere og brugen af ​​publikumssendte emoticons under talerens tale.

Fra 2017, EngageMeter, et fælles akademisk forskningsprojekt fra LMU München og University of Stuttgart. Kilde: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Fra 2017, EngageMeter, et fælles akademisk forskningsprojekt fra LMU München og University of Stuttgart. Kilde: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Som en underforfølgelse af det lukrative område af publikumsanalyse har den private sektor interesseret sig særligt for blikvurdering og -sporing – systemer, hvor hvert publikumsmedlem (som måske på sin side i sidste ende skal tale), er underlagt okulær sporing som et indeks for engagement og godkendelse.

Alle disse metoder har ret høj friktion. Mange af dem kræver skræddersyet hardware, laboratoriemiljøer, specialiserede og specialfremstillede softwarerammer og abonnement på dyre kommercielle API'er – eller en hvilken som helst kombination af disse restriktive faktorer.

Derfor er udviklingen af ​​minimalistiske systemer baseret på lidt mere end almindelige værktøjer til videokonference blevet interessant i løbet af de sidste 18 måneder.

Rapportering af publikums godkendelse diskret

Til dette formål tilbyder et nyt forskningssamarbejde mellem University of Tokyo og Carnegie Mellon University et nyt system, der kan piggy-back til standard videokonferenceværktøjer (såsom Zoom) kun ved hjælp af en web-cam-aktiveret hjemmeside, hvor letvægts blik og positur estimeringssoftware kører. På denne måde undgås selv behovet for lokale browser-plugins.

Brugerens nik og estimerede øjenopmærksomhed oversættes til repræsentative data, der visualiseres tilbage til taleren, hvilket giver mulighed for en 'live' lakmustest af, i hvor høj grad indholdet engagerer publikum - og også i det mindste en vag indikator for perioder af diskurs, hvor taleren kan miste publikums interesse.

Med CalmResponses føjes brugerens opmærksomhed og nikke til en pulje af publikumsfeedback og omsættes til en visuel repræsentation, der kan gavne taleren. Se indlejret video i slutningen af ​​artiklen for flere detaljer og eksempler. Kilde: https://www.youtube.com/watch?v=J_PhB4FCzk0

Med CalmResponses føjes brugerens opmærksomhed og nikke til en pulje af publikumsfeedback og omsættes til en visuel repræsentation, der kan gavne taleren. Se indlejret video i slutningen af ​​artiklen for flere detaljer og eksempler. Kilde: https://www.youtube.com/watch?v=J_PhB4FCzk0

I mange akademiske situationer, såsom online forelæsninger, kan de studerende være helt usynlige af taleren, da de ikke har tændt deres kameraer på grund af selvbevidsthed om deres baggrund eller nuværende udseende. CalmResponses kan løse denne ellers så vanskelige forhindring for højttalerfeedback ved at rapportere, hvad den ved om, hvordan højttaleren ser på indholdet, og hvis de nikker, uden at seeren behøver at aktivere deres kamera.

papir er titlen CalmResponses: Visning af kollektive publikumsreaktioner i fjernkommunikation, og er et fælles arbejde mellem to forskere fra UoT og en fra Carnegie Mellon.

Forfatterne tilbyder en live webbaseret demo og har udgivet kildekode på GitHub.

CalmResponses Framework

CalmResponses' interesse for at nikke, i modsætning til andre mulige dispositioner af hovedet, er baseret på forskning (noget af det hagler tilbage til Darwins æra), hvilket indikerer, at mere end 80 % af alle lytteres hovedbevægelser består af nik (selv når de er det udtrykker uenighed). Samtidig er der vist øjenbliksbevægelser i løbet af talrige undersøgelser at være et pålideligt indeks over interesse eller engagement.

CalmResponses er implementeret med HTML, CSS og JavaScript og består af tre undersystemer: en publikumsklient, en højttalerklient og en server. Publikumsklienterne videregiver data om øjenblik eller hovedbevægelser fra brugerens webcam via WebSockets over cloud-applikationsplatformen Heroku.

Publikumsnikker visualiseret til højre i en animeret bevægelse under CalmResponses. I dette tilfælde er bevægelsesvisualiseringen tilgængelig ikke kun for taleren, men for hele publikum.

Publikumsnikker visualiseret til højre i en animeret bevægelse under CalmResponses. I dette tilfælde er bevægelsesvisualiseringen tilgængelig ikke kun for taleren, men for hele publikum. Kilde: https://arxiv.org/pdf/2204.02308.pdf

Til eye-tracking-delen af ​​projektet brugte forskerne WebGazer, en letvægts, JavaScript-baseret browser-baseret eye-tracking-ramme, der kan køre med lav latenstid direkte fra en hjemmeside (se linket ovenfor for forskernes egen webbaserede implementering).

Da behovet for enkel implementering og groft, aggregeret responsgenkendelse opvejer behovet for høj nøjagtighed i blik- og positur-estimering, udjævnes input-poseringsdataene i henhold til middelværdier, før de tages i betragtning til den overordnede responsestimering.

Nikkehandlingen evalueres via JavaScript-biblioteket clmtrackr, som passer ansigtsmodeller til registrerede ansigter i billeder eller videoer igennem regulariseret skelsættende middel-forskydning. Af hensyn til økonomi og lav latency overvåges kun det detekterede vartegn for næsen aktivt i forfatternes implementering, da dette er nok til at spore nikkende handlinger.

Bevægelsen af ​​brugerens næsespidsposition skaber et spor, der bidrager til puljen af ​​publikumsrespons relateret til nik, visualiseret på en samlet måde for alle deltagere.

Bevægelsen af ​​brugerens næsespidsposition skaber et spor, der bidrager til puljen af ​​publikumsrespons relateret til nik, visualiseret på en samlet måde for alle deltagere.

Varmekort

Mens nikkende aktivitet er repræsenteret af dynamiske bevægelige prikker (se billeder ovenfor og video til sidst), rapporteres visuel opmærksomhed i form af et varmekort, der viser taleren og publikum, hvor det generelle opmærksomhedspunkt er fokuseret på den delte præsentationsskærm eller videokonferencemiljø.

Alle deltagere kan se, hvor den generelle brugeropmærksomhed er fokuseret. Bladet nævner ikke, om denne funktionalitet er tilgængelig, når brugeren kan se et 'galleri' af andre deltagere, som af forskellige årsager kan afsløre speciel fokus på en bestemt deltager.

Alle deltagere kan se, hvor den generelle brugeropmærksomhed er fokuseret. Bladet nævner ikke, om denne funktionalitet er tilgængelig, når brugeren kan se et 'galleri' af andre deltagere, som af forskellige årsager kan afsløre speciel fokus på en bestemt deltager.

Tests

To testmiljøer blev formuleret til CalmResponses i form af en tavs ablationsundersøgelse, ved brug af tre forskellige sæt af omstændigheder: I 'Betingelse B' (baseline) gentog forfatterne en typisk online studerende forelæsning, hvor størstedelen af ​​eleverne holder deres webcams vendt. slukket, og taleren har ingen evne til at se publikums ansigter; i 'Condition CR-E' kunne taleren se blikfeedback (varmekort); i 'Condition CR-N' kunne taleren se både nikke- og blikaktiviteten fra publikum.

Det første eksperimentelle scenarie omfattede tilstand B og betingelse CR-E; den anden omfattede betingelse B og betingelse CR-N. Feedback blev indhentet fra både oplægsholdere og publikum.

I hvert eksperiment blev tre faktorer evalueret: objektiv og subjektiv evaluering af præsentationen (inklusive et selvrapporteret spørgeskema fra taleren vedrørende deres følelser omkring, hvordan præsentationen gik); antallet af hændelser af "fyld"-tale, der indikerer øjeblikkelig usikkerhed og undren; og kvalitative kommentarer. Disse kriterier er fælles estimatorer af talekvalitet og højttalerangst.

Testpuljen bestod af 38 personer i alderen 19-44, bestående af 29 mænd og ni kvinder med en gennemsnitsalder på 24.7, alle japanske eller kinesiske, og alle taler flydende japansk. De blev tilfældigt opdelt i fem grupper af 6-7 deltagere, og ingen af ​​forsøgspersonerne kendte hinanden personligt.

Testene blev udført på Zoom, hvor fem talere holdt oplæg i det første eksperiment og seks i det andet.

Fyldstofforhold markeret som orange kasser. Generelt faldt fyldstofindhold i rimeligt forhold til øget publikumsfeedback fra systemet.

Fyldstofforhold markeret som orange kasser. Generelt faldt fyldstofindhold i rimeligt forhold til øget publikumsfeedback fra systemet.

Forskerne bemærker, at en højttalers fyldstoffer reduceredes markant, og at taleren i 'Condition CR-N' sjældent udtalte fyldsætninger. Se papiret for de meget detaljerede og granulære rapporterede resultater; dog var de mest markante resultater i subjektiv evaluering fra talerne og publikumsdeltagere.

Kommentarer fra publikum omfattede:

'Jeg følte, at jeg var involveret i præsentationerne' [AN2], "Jeg var ikke sikker på, at talernes taler var forbedret, men jeg følte en følelse af enhed fra andres visualisering af hovedbevægelser." [AN6]

'Jeg var ikke sikker på, at talernes taler var forbedret, men jeg følte en følelse af enhed fra andres visualisering af hovedbevægelser.'

Forskerne bemærker, at systemet introducerer en ny form for kunstig pause i talerens præsentation, da taleren er tilbøjelig til at henvise til det visuelle system for at vurdere publikums feedback, før han går videre.

De bemærker også en slags 'white coat-effekt', som er svær at undgå under eksperimentelle omstændigheder, hvor nogle deltagere følte sig begrænset af de mulige sikkerhedsmæssige konsekvenser af at blive overvåget for biometriske data.

Konklusion

En bemærkelsesværdig fordel ved et system som dette er, at alle de ikke-standardiserede hjælpeteknologier, der er nødvendige for en sådan tilgang, forsvinder fuldstændigt, efter at deres brug er slut. Der er ingen resterende browser-plugins, der skal afinstalleres, eller at så tvivl i hovedet på deltagerne om, hvorvidt de skal forblive på deres respektive systemer; og der er ingen grund til at guide brugerne gennem installationsprocessen (selvom den webbaserede ramme kræver et eller to minuts indledende kalibrering af brugeren), eller at navigere i muligheden for, at brugere ikke har tilstrækkelige tilladelser til at installere lokal software, herunder browserbaserede tilføjelser og udvidelser.

Selvom de evaluerede ansigts- og øjenbevægelser ikke er så præcise, som de kunne være under omstændigheder, hvor dedikerede lokale maskinlæringsrammer (såsom YOLO-serien) kan bruges, giver denne næsten friktionsfri tilgang til publikumsevaluering tilstrækkelig nøjagtighed til bred stemnings- og holdningsanalyse i typiske videokonferencescenarier. Frem for alt andet er det meget billigt.

Se den tilhørende projektvideo nedenfor for yderligere detaljer og eksempler.

CalmResponses: Visning af kollektive publikumsreaktioner i fjernkommunikation

 

Først offentliggjort 11. april 2022.

Forfatter på maskinlæring, domænespecialist i menneskelig billedsyntese. Tidligere leder af forskningsindhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-mail beskyttet]
Twitter: @manders_ai