Artificiell intelligens

AI hjälper nervösa talare att ‘läsa rummet’ under videokonferenser

Published April 11, 2022

Updated April 28, 2026

Martin Anderson

År 2013 fastställdes det i en undersökning om vanliga fobier att utsikten till offentligt talande var sämre än utsikten till döden för de flesta respondenterna. Syndromet kallas glossofobi.

Den COVID-drivna migrationen från ‘personliga’ möten till online-zoomkonferenser på plattformar som Zoom och Google Spaces har, förvånansvärt nog, inte förbättrat situationen. När mötet innehåller ett stort antal deltagare, försvåras våra naturliga hotbedömningsförmågor av de lågupplösta raderna och ikonerna för deltagare, och svårigheten att läsa subtila visuella signaler från ansiktsuttryck och kroppsspråk. Skype, till exempel, har visat sig vara en dålig plattform för att förmedla icke-verbala signaler.

Effekterna på offentligt talande prestation av upplevd intresse och respons är väl dokumenterade nu, och intuitivt uppenbara för de flesta av oss. Ogenomskinlig publikrespons kan orsaka att talare tvekar och faller tillbaka till fyllnadsprat, omedvetna om huruvida deras argument möter med överensstämmelse, förakt eller ointresse, ofta skapar en obekväm upplevelse för både talare och deras lyssnare.

Under tryck från den oväntade skiftet mot online-videokonferenser inspirerad av COVID-restriktioner och försiktighetsåtgärder, är problemet förmodligen värre, och ett antal lindrande publikåterkopplingsystem har föreslagits i datorseende- och påverkansforskningsgemenskaperna under de senaste två åren.

Hårdvarubaserade lösningar

De flesta av dessa, dock, involverar ytterligare utrustning eller komplex programvara som kan väcka integritets- eller logistiska problem – relativt högkostnads- eller annan resursbegränsad tillvägagångssätt som föregår pandemin. År 2001 föreslog MIT Galvactivatorn, en handburen enhet som härleder den emotionella tillståndet hos publikdeltagaren, testad under en heldags symposium.

Från 2001, MIT:s Galvactivator, som mätte hudledningsrespons i ett försök att förstå publikens inställning och engagemang. Källa: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

En stor mängd akademisk energi har också ägnats åt den möjliga distributionen av ‘klickare’ som ett PublikresponsSystem (ARS), en åtgärd för att öka aktivt deltagande från publiken (vilket automatiskt ökar engagemanget, eftersom det tvingar tittaren till rollen som en aktiv återkopplingsnod), men som också har föreställts som ett medel för talarens uppmuntran.

Andra försök att ‘koppla’ talare och publik har inkluderat hjärtfrekvensmätning, användningen av komplex kroppsburen utrustning för att utnyttja elektroencefalografi, ‘hejar-mätare’, datorseende-baserad känslerekognition för skrivbordsarbetare, och användningen av publiksskickade emotikon under talarens tal.

Från 2017, EngageMeter, ett gemensamt akademiskt forskningsprojekt från LMU Munich och University of Stuttgart. Källa: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Som en under-förföljelse av det lukrativa området publikanalys, har den privata sektorn tagit ett särskilt intresse för blickestimation och spårning – system där varje publikmedlem (som i sin tur kan tala), är föremål för okulär spårning som en index för engagemang och godkännande.

Alla dessa metoder är ganska hög friktion. Många av dem kräver specialutrustning, laboratoriemiljöer, specialgjorda programvaruramar och prenumeration på dyra kommersiella API:er – eller någon kombination av dessa begränsande faktorer.

Därför har utvecklingen av minimalistiska system baserade på lite mer än vanliga verktyg för videokonferenser blivit av intresse under de senaste 18 månaderna.

Rapportera publikens godkännande diskret

I detta syfte erbjuder ett nytt forskningssamarbete mellan University of Tokyo och Carnegie Mellon University ett nytt system som kan åka på standardverktyg för videokonferenser (såsom Zoom) med hjälp av endast en webbkamera-aktiverad webbplats där lätt gaze- och pose-estimeringsprogramvara körs. På detta sätt undviks även behovet av lokala webbläsartillägg.

Användarens nickningar och uppskattade ögonuppmärksamhet översätts till representativ data som visualiseras tillbaka till talaren, vilket möjliggör en ‘live’ litmus-test för den utsträckning som innehållet engagerar publiken – och också åtminstone en vag indikator på perioder av diskurs där talaren kan förlora publikens intresse.

Med CalmResponses, läggs användarens uppmärksamhet och nickningar till en pool av publikåterkoppling och översätts till en visuell representation som kan gynna talaren. Se inbäddad video i slutet av artikeln för mer information och exempel. Källa: https://www.youtube.com/watch?v=J_PhB4FCzk0

I många akademiska situationer, såsom online-föreläsningar, kan studenter vara helt osynliga för talaren, eftersom de inte har aktiverat sina webbkameror på grund av självmedvetenhet om sin bakgrund eller nuvarande utseende. CalmResponses kan hantera detta annars törnbena hinder för talarens återkoppling genom att rapportera vad den vet om hur talaren ser på innehållet, och om de nickar, utan något behov för tittaren att aktivera sin kamera.

Den artikeln heter CalmResponses: Visning av kollektiva publikreaktioner i fjärrkommunikation, och är ett gemensamt arbete mellan två forskare från UoT och en från Carnegie Mellon.

Författarna erbjuder en live webbaserad demo, och har släppt källkoden på GitHub.

CalmResponses-ramverket

CalmResponses intresse för nickningar, i motsats till andra möjliga dispositioner av huvudet, baseras på forskning (några av dem går tillbaka till Darwins era) som indikerar att mer än 80% av alla lyssnares huvudrörelser består av nickningar (även när de uttrycker oenighet). Samtidigt har ögonrörelser visat sig vara en tillförlitlig index för intresse eller engagemang i många studier studier.

CalmResponses implementeras med HTML, CSS och JavaScript, och består av tre subsystem: en publikklient, en talarklient och en server. Publikklienten skickar ögonrörelse- eller huvudrörelsedata från användarens webbkamera via WebSockets över molntjänstplattformen Heroku.

Publikens nickningar visualiseras på höger sida i en animerad rörelse under CalmResponses. I detta fall är rörelsevisualiseringen tillgänglig inte bara för talaren, utan för hela publiken. Källa: https://arxiv.org/pdf/2204.02308.pdf

För ögonspårningsdelen av projektet använde forskarna WebGazer, ett lätt, JavaScript-baserat webbaserat ögonspårningssystem som kan köras med låg latens direkt från en webbplats (se länk ovan för forskarnas egen webbaserade implementering).

Eftersom behovet av enkel implementering och grov, sammansatt responsigenkänning väger tyngre än behovet av hög noggrannhet i gaze- och pose-estimering, smoojas indata pose-data enligt medelvärden innan de övervägs för den övergripande respons-estimeringen.

Nickningsaktionen utvärderas via JavaScript-biblioteket clmtrackr, som anpassar ansiktsmodeller till upptäckta ansikten i bilder eller videor genom reglerad landmark-medelvärdesförskjutning. För ändamål av ekonomi och låg latens, övervakas endast det upptäckta landmärket för näsan aktivt i författarnas implementation, eftersom detta räcker för att spåra nickningsaktioner.

Rörelsen av användarens nässtipposition skapar en spår som bidrar till poolen av publikrespons relaterad till nickningar, visualiserad på ett sammansatt sätt för alla deltagare.

Värmekarta

Medan nickningsaktiviteten representeras av dynamiska rörliga punkter (se bilder ovan och video i slutet), rapporteras visuell uppmärksamhet i form av en värmekarta som visar talaren och publiken var den allmänna fokusen för uppmärksamhet är fokuserad på den delade presentations-skärmen eller videokonferens-miljön.

Alla deltagare kan se var den allmänna användaruppmärksamheten är fokuserad. Artikeln nämner inte om denna funktion är tillgänglig när användaren kan se en ‘galleri’ av andra deltagare, som kunde avslöja falsk fokus på en särskild deltagare, av olika skäl.

Tester

Två testmiljöer formulerades för CalmResponses i form av en tyst ablationsstudie, med tre varierade uppsättningar av omständigheter: i ‘Villkor B’ (baslinje), replikerade författarna en typisk online-studentföreläsning, där de flesta studenter håller sina webbkameror avstängda, och talaren har ingen möjlighet att se ansiktena på publiken; i ‘Villkor CR-E’, kunde talaren se gaze-återkoppling (värmekartor); i ‘Villkor CR-N’, kunde talaren se både nicknings- och gaze-aktivitet från publiken.

Den första experimentella scenariot bestod av villkor B och villkor CR-E; den andra bestod av villkor B och villkor CR-N. Återkoppling erhölls från både talare och publik.

I varje experiment utvärderades tre faktorer: objektiv och subjektiv utvärdering av presentationen (inklusive en självrapporterad enkät från talaren om hur presentationen gick); antalet händelser av ‘fyllnadsprat’, som är indicerande för tillfällig osäkerhet och tvekan; och kvalitativa kommentarer. Dessa kriterier är vanliga estimatorer av taletkvalitet och talarens ångest.

Testpoolen bestod av 38 personer i åldern 19-44, bestående av 29 män och nio kvinnor med en genomsnittsålder på 24,7, alla japanska eller kinesiska, och alla flytande i japanska. De delades slumpmässigt in i fem grupper om 6-7 deltagare, och ingen av deltagarna kände varandra personligen.

Testerna genomfördes på Zoom, med fem talare som höll presentationer i det första experimentet och sex i det andra.

Fyllnadsförhållanden markerade som orange rutor. I allmänhet minskade fyllnadsinnehållet i rimlig proportion till ökad publikåterkoppling från systemet.

Forskarna noterar att en talares fyllnadsprat minskade märkbart, och att i ‘Villkor CR-N’, sällan uttalade talaren fyllnadsfraser. Se artikeln för de mycket detaljerade och granulära resultaten som rapporteras; dock var de mest markerade resultaten i subjektiv utvärdering från talare och publikdeltagare.

Kommentarer från publiken inkluderade:

‘Jag kände att jag var involverad i presentationerna” [AN2], “Jag var inte säker på att talarnas tal förbättrades, men jag kände en känsla av enhet från andras huvudrörelser visualisering.’ [AN6]

‘Jag var inte säker på att talarnas tal förbättrades, men jag kände en känsla av enhet från andras huvudrörelser visualisering.’

Forskarna noterar att systemet introducerar en ny typ av konstgjord paus i talarens presentation, eftersom talaren är benägen att hänvisa till det visuella systemet för att utvärdera publikåterkoppling innan de fortsätter.

De noterar också en typ av ‘vit rock-effekt’, svår att undvika i experimentella omständigheter, där vissa deltagare kände sig begränsade av de möjliga säkerhetsimplikationerna av att övervakas för biometrisk data.

Slutsats

En anmärkningsvärd fördel i ett system som detta är att alla icke-standard tilläggsteknologier som behövs för ett sådant tillvägagångssätt försvinner helt efter att de har använts. Det finns inga residuala webbläsartillägg som måste avinstalleras, eller som kan väcka tvivel i deltagarnas sinnen om huruvida de ska förbli på sina respektive system; och det finns inget behov av att vägleda användare genom processen att installera, eller att navigera möjligheten att användare inte har tillräckliga behörigheter för att installera lokal programvara, inklusive webbaserade tillägg och utvidgningar.

Även om de utvärderade ansikts- och ögonrörelserna inte är så exakta som de kan vara i omständigheter där dedikerade lokala maskinlärningsramar (såsom YOLO-serien) kan användas, erbjuder detta nästan friktionsfria tillvägagångssätt för publikutvärdering tillräcklig noggrannhet för bred sentiment- och ståndpunktanalys i typiska videokonferensscenarier. Ovan allt annat är det mycket billigt.

Se den associerade projektvideon nedan för mer information och exempel.

Publicerad första gången 11 april 2022.

Related Topics:education facial expressions research video surveillance