Kunstmatige intelligentie

AI helpt nerveuze sprekers om ‘de kamer te lezen’ tijdens videoconferenties

Published April 11, 2022

Updated April 28, 2026

Martin Anderson

In 2013 werd door een peiling over veelvoorkomende fobieën vastgesteld dat het vooruitzicht van publiekelijk spreken erger was dan de vooruitzicht van de dood voor de meerderheid van de respondenten. Het syndroom wordt glossophobia genoemd.

De door COVID-gedreven migratie van ‘in persoon’ bijeenkomsten naar online Zoom-conferenties op platforms zoals Zoom en Google Spaces heeft, verrassend genoeg, de situatie niet verbeterd. Wanneer de bijeenkomst een groot aantal deelnemers telt, worden onze natuurlijke bedreigingsbeoordelingsvaardigheden verstoord door de lage resolutie rijen en icoontjes van deelnemers en de moeilijkheid om subtiele visuele signalen van gezichtsuitdrukkingen en lichaamstaal te lezen. Skype, bijvoorbeeld, is gebleken een slecht platform te zijn voor het overbrengen van non-verbale signalen.

De effecten op de prestaties van publiekelijk spreken van waargenomen interesse en responsiviteit zijn inmiddels goed gedocumenteerd en intuïtief duidelijk voor de meesten van ons. Ondoorzichtige respons van het publiek kan ervoor zorgen dat sprekers aarzelen en terugvallen op vulwoordenspraak, zich niet bewust van het feit of hun argumenten overeenkomen met instemming, minachting of desinteresse, vaak resulterend in een ongemakkelijke ervaring voor zowel de spreker als hun luisteraars.

Onder druk van de onverwachte verschuiving naar online videoconferencing geïnspireerd door COVID-beperkingen en voorzorgsmaatregelen, wordt het probleem naar alle waarschijnlijkheid erger, en zijn verschillende verlichtende publieksfeedbacksystemen voorgesteld in de computerzicht- en affectonderzoeksgemeenschappen in de afgelopen paar jaar.

Hardware-georiënteerde oplossingen

De meeste hiervan zijn echter gebaseerd op extra apparatuur of complexe software die privacy- of logistieke problemen kan opleveren – relatief hoge kosten of anderszins resource-beperkte benaderingsstijlen die voorafgaand aan de pandemie waren. In 2001 stelde MIT de Galvactivator voor, een op de hand gedragen apparaat dat de emotionele toestand van de deelnemer van het publiek afleidt, getest tijdens een daglange symposium.

Van 2001, MIT’s Galvactivator, die de huidgeleidingsrespons mat om de mening en betrokkenheid van het publiek te begrijpen. Bron: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Er is ook veel academische energie gestoken in de mogelijke inzet van ‘klikkers’ als een Publieksresponsysteem (ARS), een maatregel om de actieve deelname van het publiek te vergroten (wat automatisch de betrokkenheid verhoogt, omdat het de kijker dwingt tot de rol van een actief feedbackknooppunt), maar die ook is bedoeld als een middel om de spreker aan te moedigen.

Andere pogingen om ‘verbinding’ te maken tussen spreker en publiek hebben onder andere hartslagmeting omvat, het gebruik van complexe lichaamsgebonden apparatuur om electroencefalografie te benutten, ‘applausmeters’, computerzicht-gebaseerde emotieherkenning voor medewerkers aan het bureau, en het gebruik van door het publiek verzonden emoticons tijdens de toespraak van de spreker.

Van 2017, de EngageMeter, een gezamenlijk academisch onderzoeksproject van LMU München en de Universiteit van Stuttgart. Bron: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Als een deelvervolging van het lucratieve gebied van publieksanalyse, heeft de private sector een bijzonder belangstelling voor blikschattings- en volgsystemen – systemen waarin elk publiekslid (dat op zijn beurt uiteindelijk moet spreken), onderworpen wordt aan oculaire tracking als een index van betrokkenheid en goedkeuring.

Al deze methoden zijn vrijwel hoogwrijvend. Velen van hen vereisen extra apparatuur, laboratoriumomgevingen, gespecialiseerde en op maat gemaakte softwarekaders, en abonnement op dure commerciële API’s – of een combinatie van deze beperkende factoren.

Daarom is de ontwikkeling van minimalistische systemen die zijn gebaseerd op weinig meer dan gewone tools voor videoconferencing het afgelopen jaar en een half interessant geworden.

Publieksinstemming discreet melden

Daartoe biedt een nieuwe onderzoeks samenwerking tussen de Universiteit van Tokio en de Carnegie Mellon Universiteit een nieuw systeem dat kan meeliften op standaardvideoconferencingtools (zoals Zoom) met behulp van alleen een web-cam-geactiveerde website waarop lichtgewicht blik- en pose-estimatiesoftware draait. Op deze manier wordt zelfs de noodzaak voor lokale browserplug-ins vermeden.

De knikken en geschatte oog-aandacht van de gebruiker worden vertaald in representatieve gegevens die worden visualiseerd naar de spreker, waardoor een ‘live’ lakmoesproef mogelijk wordt van de mate waarin de inhoud het publiek boeit – en ook ten minste een vage indicatie van perioden van discours waarin de spreker het publieksinteresse kan verliezen.

Met CalmResponses wordt de aandacht en het knikken van de gebruiker toegevoegd aan een verzameling van publieksfeedback en vertaald in een visuele weergave die de spreker kan helpen. Zie de ingesloten video aan het einde van het artikel voor meer details en voorbeelden. Bron: https://www.youtube.com/watch?v=J_PhB4FCzk0

In veel academische situaties, zoals online colleges, kunnen studenten volledig onzichtbaar zijn voor de spreker, omdat ze hun camera’s niet hebben ingeschakeld vanwege zelfbewustzijn over hun achtergrond of huidige uiterlijk. CalmResponses kan dit obstakel voor sprekersfeedback aanpakken door te melden wat het weet over hoe de spreker naar de inhoud kijkt, en of ze knikken, zonder dat de kijker zijn camera hoeft in te schakelen.

Het artikel heeft als titel CalmResponses: Weergave van collectieve publieksreacties in remote communicatie, en is een gezamenlijk werk van twee onderzoekers van UoT en een van Carnegie Mellon.

De auteurs bieden een live web-based demo aan en hebben de broncode op GitHub vrijgegeven.

Het CalmResponses-kader

CalmResponses’ interesse in knikken, in tegenstelling tot andere mogelijke houdingen van het hoofd, is gebaseerd op onderzoek (een deel ervan dateert uit de tijd van Darwin) dat aangeeft dat meer dan 80% van alle luisteraarshoofdbewegingen bestaan uit knikken (zelfs wanneer ze oneens zijn). Tegelijkertijd is aangetoond dat oogbewegingen een betrouwbare index van interesse of betrokkenheid zijn in talrijke studies studies.

CalmResponses is geïmplementeerd met HTML, CSS en JavaScript, en bestaat uit drie subsystemen: een publieksclient, een sprekerclient en een server. De publieksclient verzendt oog- en hoofdbewegingsgegevens van de gebruiker via WebSockets naar de cloudtoepassingsplatform Heroku.

Het knikken van het publiek wordt visualiseerd op de rechterkant in een geanimeerde beweging onder CalmResponses. In dit geval is de visualisatie van de beweging niet alleen beschikbaar voor de spreker, maar ook voor het hele publiek. Bron: https://arxiv.org/pdf/2204.02308.pdf

Voor het oogtrackingsgedeelte van het project gebruikten de onderzoekers WebGazer, een lichtgewicht, JavaScript-gebaseerd browsergebaseerd oogtrackingskader dat met lage latentie rechtstreeks vanaf een website kan worden uitgevoerd (zie de link hierboven voor de eigen webgebaseerde implementatie van de onderzoekers).

Aangezien de behoefte aan eenvoudige implementatie en ruwe, collectieve responsrecognitie zwaarder weegt dan de behoefte aan hoge nauwkeurigheid in blik- en pose-estimaties, wordt de invoergegevens voor de pose gesmooth volgens gemiddelde waarden voordat deze worden overwogen voor de algehele responsiestimaties.

De knikactie wordt geëvalueerd via de JavaScript-bibliotheek clmtrackr, die gezichtsmodellen past aan gedetecteerde gezichten in afbeeldingen of video’s via geregelde landmark mean-shift. Om redenen van economie en lage latentie wordt in de implementatie van de auteurs alleen het gedetecteerde landmark voor de neus actief gemonitord, aangezien dit voldoende is om knikacties te volgen.

De beweging van de neus van de gebruiker creëert een spoor dat bijdraagt aan de verzameling van publieksreacties met betrekking tot knikken, visualiseert op een geaggregeerde manier voor alle deelnemers.

Hittekaart

Terwijl de knikactiviteit wordt weergegeven door dynamische bewegende stippen (zie bovenstaande afbeeldingen en video aan het einde), wordt visuele aandacht gerapporteerd in termen van een hittekaart die de spreker en het publiek laat zien waar de algemene locus van aandacht is gericht op het gedeelde presentatiescherm of videoconferentiemilieu.

Alle deelnemers kunnen zien waar de algemene gebruikersaandacht is gericht. Het artikel vermeldt niet of deze functionaliteit beschikbaar is wanneer de gebruiker een ‘galerij’ van andere deelnemers kan zien, wat specieuze focus op een bepaalde deelnemer kan onthullen om verschillende redenen.

Tests

Twee testomgevingen werden opgezet voor CalmResponses in de vorm van een impliciete afbraakstudie, met drie verschillende sets van omstandigheden: in ‘Conditiestand B’ (basislijn), repliceerden de auteurs een typische online studentenlezing, waarin de meerderheid van de studenten hun webcams uitschakelt en de spreker geen mogelijkheid heeft om de gezichten van het publiek te zien; in ‘Conditiestand CR-E’, kon de spreker blikfeedback (hittekaarten) zien; in ‘Conditiestand CR-N’, kon de spreker zowel knik- als blikactiviteit van het publiek zien.

Het eerste experiment bestond uit conditiestand B en conditiestand CR-E; het tweede bestond uit conditiestand B en conditiestand CR-N. Feedback werd verkregen van zowel de sprekers als het publiek.

In elk experiment werden drie factoren geëvalueerd: objectieve en subjectieve evaluatie van de presentatie (inclusief een zelfgerapporteerd vragenlijst van de spreker over hoe de presentatie verliep); het aantal gebeurtenissen van ‘vulwoordenspraak’, indicatief voor momenteel onzekere en aarzelende toespraken; en kwalitatieve opmerkingen. Deze criteria zijn gemeenschappelijke schattingen van toespraakkwaliteit en sprekersangst.

De testpool bestond uit 38 personen in de leeftijd van 19-44 jaar, waarvan 29 mannen en negen vrouwen met een gemiddelde leeftijd van 24,7, allemaal Japans of Chinees, en allemaal vloeiend in het Japans. Zij werden willekeurig verdeeld in vijf groepen van 6-7 deelnemers, en geen van de onderwerpen kende elkaar persoonlijk.

De tests werden uitgevoerd op Zoom, met vijf sprekers die presentaties gaven in het eerste experiment en zes in het tweede.

Vulvoorwaarden gemarkeerd als oranje vakken. Over het algemeen nam de inhoud van de vulwoordenspraak af in redelijke verhouding tot de toegenomen publieksfeedback van het systeem.

De onderzoekers merken op dat de vulwoordenspraak van een spreker aanzienlijk afnam, en dat in ‘Conditiestand CR-N’ de spreker zelden vulwoordenspraak uitsprak. Zie het artikel voor de zeer gedetailleerde en gedetailleerde resultaten die worden gerapporteerd; echter, de meest opvallende resultaten waren in subjectieve evaluatie van de sprekers en deelnemers van het publiek.

Opmerkingen van het publiek omvatten:

‘Ik voelde me betrokken bij de presentaties” [AN2], “Ik was niet zeker of de toespraken van de sprekers waren verbeterd, maar ik voelde een gevoel van eenheid vanuit de visualisatie van de hoofdbewegingen van anderen.’ [AN6]

‘Ik was niet zeker of de toespraken van de sprekers waren verbeterd, maar ik voelde een gevoel van eenheid vanuit de visualisatie van de hoofdbewegingen van anderen.’

De onderzoekers merken op dat het systeem een nieuwe soort kunstmatige pauze introduceert in de presentatie van de spreker, aangezien de spreker geneigd is om naar het visuele systeem te verwijzen om publieksfeedback te beoordelen voordat hij verder gaat.

Zij merken ook op een soort ‘witte jas-effect’, moeilijk te vermijden in experimentele omstandigheden, waarin sommige deelnemers zich beperkt voelden door de mogelijke beveiligingsimplicaties van het monitoren van biometrische gegevens.

Conclusie

Een opvallend voordeel van een systeem als dit is dat alle niet-standaard adjuncttechnologieën die nodig zijn voor een dergelijke benadering volledig verdwijnen na hun gebruik. Er zijn geen resterende browserplug-ins die moeten worden verwijderd, of die twijfels kunnen zaaien in de gedachten van deelnemers over het al dan niet laten staan van deze op hun respectieve systemen; en er is geen behoefte om gebruikers door het proces van installatie te leiden (hoewel het webgebaseerde kader een minuut of twee aanvankelijke kalibratie van de gebruiker vereist), of om de mogelijkheid te navigeren dat gebruikers geen adequate machtigingen hebben om lokale software te installeren, inclusief browsergebaseerde add-ons en extensies.

Hoewel de geëvalueerde gezichts- en oogbewegingen niet zo nauwkeurig zijn als ze zouden kunnen zijn in omstandigheden waarin lokale machine learning-kaders (zoals de YOLO-serie) zouden kunnen worden gebruikt, biedt deze bijna wrijvingsloze benadering van publieksbeoordeling voldoende nauwkeurigheid voor brede sentiment- en standpuntanalyse in typische videoconferentiescenario’s. Bovenal is het heel goedkoop.

Bekijk de bijbehorende projectvideo hieronder voor meer details en voorbeelden.

Publicatie voor het eerst op 11 april 2022.

Related Topics:education facial expressions research video surveillance