Kunstig intelligens

AI hjælper nervøse talere med at ‘læse rummet’ under videokonferencer

Published April 11, 2022

Updated April 5, 2026

Martin Anderson

I 2013 fastslog en meningsmåling om almindelige fobier, at udsigten til offentligt tale var værre end udsigten til død for de fleste respondenter. Syndromet er kendt som glossophobia.

Den COVID-drevne migration fra ‘ansigt til ansigt’-møder til online zoom-konferencer på platforme som Zoom og Google Spaces har, overraskende, ikke forbedret situationen. Når mødet indeholder et stort antal deltagere, er vores naturlige trusselsvurderingsfærdigheder forringet af de lavopløselige rækker og ikoner af deltagere, og vanskeligheden ved at læse subtile visuelle signaler af ansigtsudtryk og kropssprog. Skype, for eksempel, er blevet fundet til at være en dårlig platform for at overføre non-verbale signaler.

Effekterne på offentligt talepræstation af opfattet interesse og respons er godt dokumenteret nu, og intuitivt åbenlyse for de fleste af os. Uigennemsigtig publikumsrespons kan få talere til at tøve og falde tilbage til filler tale, uvidende om, hvorvidt deres argumenter møder med enighed, foragt eller uinteresse, ofte medfører en ubehagelig oplevelse for både taleren og deres tilhørere.

Under pres fra den uventede skift mod online videokonferencer inspireret af COVID-restriktioner og forsigtighed, er problemet sandsynligvis værre, og en række lettelses publikumsfeedback-skemaer er blevet foreslået i computer vision og affect forskningsfællesskaber over de sidste par år.

Hardware-Fokuserede Løsninger

De fleste af disse, however, involverer ekstra udstyr eller kompleks software, der kan rejse privatlivs- eller logistiske problemer – relativt høj-omkostnings- eller anden ressource-begrænsende tilgangsstiler, der forudgår pandemien. I 2001 foreslog MIT Galvactivator, en håndbåret enhed, der slutninger den emotionelle tilstand af publikum deltager, testet under en dag-lang symposium.

Fra 2001, MIT’s Galvactivator, der målte hudledningssvar i et forsøg på at forstå publikums mening og engagement. Kilde: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

En stor del akademisk energi er også blevet viet til den mulige udrulning af ‘clickere’ som et Publikumsrespons System (ARS), en måde at øge aktiv deltagelse af publikum (hvad automatisk øger engagement, da det tvinger seeren ind i rollen som en aktiv feedback-knob), men som også er blevet forestillet som en måde at opmuntre talere på.

Andre forsøg på at ‘forbinde’ taler og publikum har inkluderet hjertefrekvensovervågning, brugen af kompleks krop-båret udstyr til at udnytte elektroencefalografi, ‘cheer-målinger’, computer-vision-baseret emotion-genkendelse for skrivebords-arbejdere, og brugen af publikum-sendte emotikoner under talerens tale.

Fra 2017, EngageMeter, et fælles akademisk forskningsprojekt fra LMU München og Universitetet i Stuttgart. Kilde: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Som en under-tilgang til det lukrative område af publikumsanalyse, har den private sektor taget en særlig interesse i blikkestimation og -sporings-systemer – systemer, hvor hver publikumsmedlem (der måske selv skal tale), er underlagt øjne-sporing som en indeks for engagement og billigelse.

Alle disse metoder er ret høj-friction. Mange af dem kræver særligt udstyr, laboratorie-miljøer, specialiseret software og abonnement på dyre kommercielle API’er – eller en kombination af disse begrænsende faktorer.

Derfor er udviklingen af minimalistiske systemer baseret på lidt mere end almindelige værktøjer til videokonferencer blevet interessant over de sidste 18 måneder.

Rapportering af Publikums Billigelse Diskret

I denne forbindelse tilbyder et nyt forsknings-samarbejde mellem Universitetet i Tokyo og Carnegie Mellon Universitet et nyt system, der kan piggy-backe på standard videokonferencetools (såsom Zoom) ved hjælp af kun en webkamera-aktiveret website, hvor let gaze- og pose-estimeringssoftware kører. På denne måde undgås selv behovet for lokale browser-plugins.

Brugerens nik og estimeret øje-opmærksomhed oversættes til repræsentative data, der visualiseres tilbage til taleren, hvilket giver en ‘live’ lakmus-test for, i hvilken udstrækning indholdet engagerer publikum – og også mindst en vag indikator for perioder af diskurs, hvor taleren kan være ved at miste publikums interesse.

Med CalmResponses, føjes brugerens opmærksomhed og nik til en pulje af publikumsfeedback og oversættes til en visuel repræsentation, der kan gavne taleren. Se indlejret video i slutningen af artiklen for mere detaljer og eksempler. Kilde: https://www.youtube.com/watch?v=J_PhB4FCzk0

I mange akademiske situationer, såsom online-forelæsninger, kan studenterne være helt usynlige for taleren, da de ikke har slået deres webkameraer til, på grund af selvbevidsthed om deres baggrund eller nuværende udseende. CalmResponses kan imødegå dette ellers tornefulde hindring til talerfeedback ved at rapportere, hvad det ved om, hvordan taleren ser på indholdet, og om de nikker, uden noget behov for seeren at aktivere deres kamera.

Den artikel er titlen CalmResponses: Displaying Collective Audience Reactions in Remote Communication, og er et fællesarbejde mellem to forskere fra UoT og en fra Carnegie Mellon.

Forfatterne tilbyder en live web-baseret demo og har udgivet kildekoden på GitHub.

CalmResponses-Rammerket

CalmResponses’ interesse for nik, i modsætning til andre mulige dispositioner af hovedet, er baseret på forskning (noget af det går tilbage til Darwins æra), der indikerer, at mere end 80% af alle lytteres hovedbevægelser består af nik (selv når de udtrykker uenighed). Samtidig er øjebevægelser blevet vist at være en pålidelig indeks for interesse eller engagement.

CalmResponses er implementeret med HTML, CSS og JavaScript og består af tre subsystemer: en publikums-klient, en taler-klient og en server. Publikums-klienten sender øje-gaze- eller hovedbevægelsesdata fra brugerens webkamera via WebSockets over sky-platformen Heroku.

Publikums nik visualiseret til højre i en animeret bevægelse under CalmResponses. I dette tilfælde er bevægelsesvisualiseringen tilgængelig ikke kun for taleren, men for hele publikum. Kilde: https://arxiv.org/pdf/2204.02308.pdf

Til øje-sporings-delen af projektet brugte forskerne WebGazer, en letvægts, JavaScript-baseret browser-baseret øje-sporingsramme, der kan køre med lav forsinkelse direkte fra en website (se link ovenfor for forskernes egen web-baserede implementering).

Da behovet for simpel implementering og ru, samlet respons-genkendelse vejer tungere end behovet for høj nøjagtighed i gaze- og pose-estimering, glattes input-pose-data efter middelværdier, før det overvejes for den samlede respons-estimering.

Nik-handlingen vurderes via JavaScript-biblioteket clmtrackr, der passer facial-modeller til detekterede ansigter i billeder eller videoer gennem regulariseret landmark mean-shift. Til formål af økonomi og lav-forsinkelse overvåges kun det detekterede landmark for næsen aktivt i forfatternes implementering, da dette er nok til at spore nik-bevægelser.

Brugerens næse-spids-bevægelse skaber en sti, der bidrager til puljen af publikumsrespons relateret til nik, visualiseret på en samlet måde for alle deltagere.

Varmekort

Mens nik-bevægelsen repræsenteres af dynamiske bevægelser (se billeder ovenfor og video i slutningen), rapporteres visuel opmærksomhed i form af et varmekort, der viser taleren og publikum, hvor den generelle locus af opmærksomhed er fokuseret på den delte præsentationsskærm eller videokonference-miljø.

Alle deltagere kan se, hvor den generelle bruger-opmærksomhed er fokuseret. Artiklen nævner ikke, om denne funktionalitet er tilgængelig, når brugeren kan se en ‘galleri’ af andre deltagere, hvilket kunne afsløre forkert fokus på en bestemt deltager af forskellige årsager.

Tests

To test-miljøer blev formuleret for CalmResponses i form af en underforstået ablations-studie, der brugte tre varierede sæt af omstændigheder: i ‘Betingelse B’ (baseline), genskabte forfatterne en typisk online-student-forelæsning, hvor de fleste studenter holdt deres webkameraer slukket, og taleren havde ingen mulighed for at se ansigterne af publikum; i ‘Betingelse CR-E’, kunne taleren se gaze-feedback (varmekort); i ‘Betingelse CR-N’, kunne taleren se både nik- og gaze-aktivitet fra publikum.

Den første eksperimentelle scenario bestod af betingelse B og betingelse CR-E; den anden bestod af betingelse B og betingelse CR-N. Feedback blev erhvervet fra både talerne og publikum.

Related Topics:education facial expressions research video surveillance