Andersons hoek

Het herkennen van werknemerstress door middel van gezichtsanalyse op het werk

Gepubliceerd op 24 november 2021

Bijgewerkt op 24 mei 2026

Door

Martin Anderson

In de context van de veranderende cultuur rondom Zoom-vergaderingen en de opkomst van Zoom-moeheid, hebben onderzoekers van Cambridge een studie gepubliceerd die gebruik maakt van machine learning om onze stressniveaus te bepalen via AI-geactiveerde webcambeelden van onze gezichtsuitdrukkingen op het werk.

Links, de data-verzamelomgeving, met meerdere monitorende apparaten gericht op of bevestigd aan een vrijwilliger; rechts, voorbeelden van gezichtsuitdrukkingen gegenereerd door testpersonen bij verschillende niveaus van taakmoeilijkheid. Bron: https://arxiv.org/pdf/2111.11862.pdf

Het onderzoek is bedoeld voor affectanalyse (d.w.z. emotion recognition) in ‘Ambient Assistive Living’-systemen, en is waarschijnlijk ontworpen om video-gebaseerde AI-gezichtsuitdrukkingsmonitoringframeworks in dergelijke systemen mogelijk te maken; hoewel het artikel niet uitgebreid ingaat op dit aspect, heeft het onderzoeksproject geen zin in een andere context.

Het specifieke doel van het project is om gezichtsuitdrukkingspatronen te leren in werkomgevingen – inclusief thuiswerksituaties – in plaats van ‘vrijetijds’ of ‘passieve’ situaties, zoals reizen.

Gezichtsgebaserde emotieherkenning op de werkplek

Terwijl ‘Ambient Assistive Living’ kan klinken als een plan voor ouderenzorg, is dat verre van het geval. De auteurs verklaren*:

‘Systemen die zijn gemaakt voor ambient assistive living-omgevingen [†] zijn ontworpen om zowel automatische affectanalyse als responsen uit te voeren. Ambient assistive living is afhankelijk van het gebruik van informatie- en communicatietechnologie (ICT) om personen te helpen bij hun dagelijks leven en werken, om hen gezonder en actiever te houden en om hen in staat te stellen onafhankelijk te blijven wonen naarmate ze ouder worden. Daarom beoogt ambient assistive living om gezondheidswerkers, verpleegsters, artsen, fabrieksarbeiders, chauffeurs, piloten, leraren en diverse industrieën te ondersteunen via sensing, beoordeling en interventie.

‘Het systeem is bedoeld om de fysieke, emotionele en mentale belasting te bepalen en te reageren en aan te passen wanneer nodig, bijvoorbeeld, een auto die is uitgerust met een suffigheidsdetectiesysteem kan de bestuurder waarschuwen om alert te blijven en kan suggereren om een korte pauze te nemen om ongelukken te voorkomen [††].’

Het artikel heeft de titel Inferring User Facial Affect in Work-like Settings en komt van drie onderzoekers van de Affective Intelligence & Robotics Lab van Cambridge.

Testomstandigheden

Aangezien eerder onderzoek in dit veld grotendeels is gebaseerd op ad-hoccollecties van afbeeldingen van internet, hebben de onderzoekers van Cambridge lokale data-verzamelingsexperimenten uitgevoerd met 12 campusvrijwilligers, 5 mannen en 7 vrouwen. De vrijwilligers kwamen uit negen landen en waren tussen de 22 en 41 jaar oud.

Het project had tot doel drie potentieel stressvolle werkomgevingen na te bootsen: een kantoor; een productielijn in een fabriek; en een teleconferentiegesprek – zoals het soort Zoom-groepsgesprek dat een frequent onderdeel is geworden van thuiswerken sinds de uitbraak van de pandemie.

De onderwerpen werden gemonitord door verschillende middelen, waaronder drie camera’s, een Jabra-halsmicrofoon, een Empatica-polsband (een draadloze multisensoriale wearable die real-time biofeedback biedt), en een Muse 2-hoofdbandsensor (die ook biofeedback biedt). Bovendien werden de vrijwilligers gevraagd om enquêtes in te vullen en hun humeur periodiek zelf te beoordelen.

Maar dit betekent niet dat toekomstige Ambient Assistive Living-systemen je ‘inpluggen’ zullen zijn (als het al was voor kostenredenen); alle niet-camera-monitorende apparatuur en methoden die bij de data-verzameling werden gebruikt, waaronder de geschreven zelfbeoordelingen, zijn bedoeld om de gezichtsgebaserde affectherkenningssystemen te verifiëren die mogelijk worden gemaakt door camerabeelden.

De druk opvoeren: Het kantoorscenario

In de eerste twee van de drie scenario’s (‘Kantoor’ en ‘Fabriek’) werden de vrijwilligers gestart met een gemakkelijk tempo, met de druk die geleidelijk toenam over vier fasen, met verschillende soorten taken voor elke fase.

Bij het hoogste niveau van geïnduceerde stress moesten de vrijwilligers ook de ‘white coat-effect’ van iemand die over hun schouder keek, plus 85 dB extra lawaai, verdragen, wat precies vijf decibel onder de wettelijke limiet is voor een kantooromgeving in de VS, en de exacte maximale limiet die is gespecificeerd door het National Institute for Occupational Safety and Health (NIOSH).

In de kantoorachtige data-verzamelingsfase werden de onderwerpen gevraagd om eerder getoonde letters te onthouden die over hun scherm flitsten, met toenemende niveaus van moeilijkheid (zoals het onthouden van twee-lettersequenties die twee schermen geleden waren verschenen).

Het fabrieksscenario

Om een handarbeidsomgeving te simuleren, werden de onderwerpen gevraagd om het spel Operation te spelen, dat de gebruiker uitdaagt door te vereisen dat hij kleine voorwerpen uit een bord haalt door smalle, metalen randen zonder de zijkanten aan te raken, wat een ‘mislukking’-zoemer activeert.

Bij de moeilijkste fase moest de vrijwilliger alle 12 voorwerpen zonder fout binnen één minuut verwijderen. Ter vergelijking: het wereldrecord voor deze taak, vastgesteld in het VK in 2019, staat op 12,68 seconden.

Het teleconferentiescenario

Tenslotte werden de vrijwilligers in de thuiswerken/teleconferentietest door een onderzoeker via een MS Teams-gesprek gevraagd om hun eigen positieve en negatieve herinneringen te herinneren. Voor de meest stressvolle fase van dit scenario moest de vrijwilliger een zeer negatieve of verdrietige herinnering uit zijn recente verleden herinneren.

De verschillende taken en scenario’s werden in willekeurige volgorde uitgevoerd en samengesteld in een aangepast dataset met de titel Working-Environment-Context-Aware Dataset (WECARE-DB).

Methode en training

De resultaten van de zelfbeoordelingen van de gemoedstoestand van de gebruikers werden gebruikt als grondwaarheid en gekoppeld aan valentie- en arousaldimensies. De opgenomen video van de experimenten werd doorgevoerd via een netwerk voor gezichtslandmarkdetectie, en de uitgelijnde afbeeldingen werden gevoerd naar een ResNet-18-netwerk getraind op de AffectNet-dataset.

450.000 afbeeldingen uit AffectNet, alle getekend en gelabeld van internet met emotiegerelateerde queries, werden handmatig geannoteerd, aldus het artikel, met valentie- en arousaldimensies.

Vervolgens verfijnden de onderzoekers het netwerk op basis van hun eigen WECARE-dataset, terwijl spectrale representatie-encoding werd gebruikt om frame-gebaseerde voorspellingen samen te vatten.

Resultaten

De prestaties van het model werden beoordeeld op drie metrics die gewoonlijk worden geassocieerd met geautomatiseerde affectvoorspelling: Concordance Coefficient Correlatie; Pearson Coefficient Correlatie; en Root Mean Square Error (RMSE).

De auteurs merken op dat het model, dat is gefinetuned op hun eigen WECARE-dataset, beter presteerde dan ResNet-18, en concluderen hieruit dat de manier waarop we onze gezichtsuitdrukkingen reguleren zeer anders is in een werkomgeving dan in de meer abstracte contexten waaruit eerder onderzoek materiaal heeft afgeleid van internet.

Zij verklaren:

‘Als we naar de tabel kijken, zien we dat het model dat is gefinetuned op WECARE-DB beter presteerde dan het ResNet-18-model dat is voorge-trained op [AffectNet], wat aangeeft dat de gezichtsgedragingen die worden getoond in werkomgevingen anders zijn dan die in de in-the-wild-internetinstellingen die worden gebruikt in de AffectNet-DB. Daarom is het noodzakelijk om datasets te verkrijgen en modellen te trainen voor het herkennen van gezichtsuitdrukkingen in werkomgevingen.’

Wat betreft de toekomst van affectherkenning op het werk, mogelijk gemaakt door netwerken van camera’s die op werknemers zijn gericht en constant voorspellingen maken van hun emotionele staten, concluderen de auteurs*:

‘Het uiteindelijke doel is om de getrainde modellen in real-time en in echte werkomgevingen te implementeren en te gebruiken om input te bieden aan beslissingsondersteunende systemen om de gezondheid en het welzijn van mensen te bevorderen tijdens hun werkzame leven in de context van het EU Working Age Project.’

* Mijn nadruk.

† Hier verwijzen de auteurs naar drie citaten:

Automatische, dimensionale en continue emotieherkenning – https://ibug.doc.ic.ac.uk/media/uploads/documents/GunesPantic_IJSE_2010_camera.pdf
Verkennen van het ambient assistive living-domein: een systematische review – https://link.springer.com/article/10.1007/s12652-016-0374-3
Een overzicht van Internet of Things-technologieën voor ambient assistive living-omgevingen – https://mdpi-res.com/d_attachment/futureinternet/futureinternet-11-00259/article_deploy/futureinternet-11-00259-v2.pdf

†† Hier verwijzen de auteurs naar twee citaten:

Real-time bestuurder-suffigheidsdetectie voor ingebed systeem met behulp van modelcompressie van diepe neurale netwerken – https://openaccess.thecvf.com/content_cvpr_2017_workshops/w4/papers/Reddy_Real-Time_Driver_Drowsiness_CVPR_2017_paper.pdf
Real-Time bestuurder-suffigheidsdetectiesysteem met behulp van gezichtsuitdrukkingen – https://www.semanticscholar.org/paper/Real-Time-Driver-Drowsiness-Detection-System-Using-Deng-Wu/1f4b0094c9e70bf7aa287234e0fdb4c764a5c532