Andersons vinkel
Genkendelse af medarbejderstress gennem ansigtsanalyse på arbejdspladsen

I forbindelse med den skiftende kultur omkring Zoom-mødeetikette og opblomstringen af Zoom-udmattelse, har forskere fra Cambridge offentliggjort en studie, der bruger maskinelæring til at bestemme vores stressniveauer via AI-aktiveret webcam-dækning af vores ansigtsudtryk på arbejdspladsen.

Til venstre, datindsamlingsmiljøet med flere overvågningsenheder enten trænet på eller fastgjort til en frivillig; til højre, eksempler på ansigtsudtryk genereret af testpersoner ved varierende niveauer af opgavevanskelighed. Kilde: https://arxiv.org/pdf/2111.11862.pdf
Forskningen er beregnet til affektanalyse (dvs. genkendelse af emotioner) i ‘Ambient Assistive Living’-systemer og er formodentlig designet til at aktivere video-baseret AI-ansigtsudtryks-overvågning i sådanne systemer; selvom artiklen ikke udvider på dette aspekt, giver forskningsindsatsen ingen mening i nogen anden kontekst.
Det specifikke område for projektet er at lære ansigtsudtryksmønstre i arbejdsmiljøer – herunder fjernarbejdsarrangementer – snarere end ‘fritid’ eller ‘passive’ situationer, såsom rejser.
Ansigtsgenkendelse af emotioner på arbejdspladsen
Mens ‘Ambient Assistive Living’ måske lyder som en plan for ældrepleje, er det langt fra tilfældet. Når det kommer til de ønskede ‘slutbrugere’, siger forfatterne*:
‘Systemer skabt til ambient assistive living-miljøer [†] har til formål at kunne udføre både automatisk affektanalyse og reagere. Ambient assistive living afhænger af brugen af informationsteknologi (IT) til at hjælpe personer i deres daglige liv og arbejdsmiljø for at holde dem sunde og aktive længere og enable dem til at leve uafhængigt, mens de bliver ældre. Derfor har ambient assistive living til formål at hjælpe sundhedsarbejdere, sygeplejersker, læger, fabriksarbejdere, chauffører, piloter, lærere samt forskellige industrier via sensing, vurdering og intervention.
‘Systemet er beregnet til at bestemme den fysiske, emotionelle og mentale belastning og reagere og tilpasse sig efter behov, f.eks. en bil udstyret med en søvndrægtighedsdetektion kan underrette chaufføren om at være opmærksom og kan foreslå ham at tage en lille pause for at undgå ulykker [††].’
Artiklen hefter er titlen Inferring User Facial Affect in Work-like Settings og kommer fra tre forskere fra Affective Intelligence & Robotics Lab på Cambridge.
Testbetingelser
Da tidligere arbejde på dette område har afhængigt af ad hoc-samlinger af billeder skrabet fra internettet, gennemførte Cambridge-forskerne lokale datindsamlingseksperimenter med 12 campus-frivillige, 5 mænd og 7 kvinder. Frivillige kom fra ni lande og var i alderen 22-41.
Projektet havde til formål at genskabe tre potentielt stressende arbejdsmiljøer: et kontor; en fabriksproduktionslinje; og en telekonference-opkald – såsom den type Zoom-gruppechat, der er blevet en hyppig funktion af hjemmearbejde siden pandemiens begyndelse.
Emnerne blev overvåget på forskellige måder, herunder tre kameraer, en Jabra-halsbåndsmikrofon, en Empatica-armbånd (en trådløs multisensor-bærbart tilbyder realtids-biofeedback), og en Muse 2-hovedbåndssensor (der også tilbyder biofeedback). Derudover blev frivillige bedt om at udfylde spørgeskemaer og selv-vurdere deres humør periodisk.

Men dette betyder ikke, at fremtidige Ambient Assistive Living-rig er gået til at ‘plugge dig ind’ i den udstrækning (hvis ikke andet så af kostningsårsager); alle de ikke-kamera-overvågningsudstyr og -metoder, der blev brugt i datindsamlingen, herunder de skriftlige selv-vurderinger, er beregnet til at verificere ansigtsgenkendelsessystemerne, der er aktiveret af kameraoptagelser.
Øgende presset: Kontorscenarioet
I de første to af de tre scenarier (‘Kontor’ og ‘Fabrik’), startede frivillige med en let pace, med presset gradvist øgende over fire faser, med forskellige typer opgaver for hver.
Ved det højeste niveau af induceret stress, måtte frivillige også udholde ‘hvid kittel-effekten’ af nogen, der kiggede over deres skulder, plus 85 dB af ekstra støj, der er kun fem decibel under den lovmæssige grænse for et kontormiljø i USA, og den præcise maksimumgrænse specificeret af National Institute for Occupational Safety and Health (NIOSH).
I kontorlignende datindsamlingsfasen blev emnerne bedt om at huske tidligere bogstaver, der havde blinket på deres skærm, med øgende niveauer af sværhed (såsom at huske to-bogstavssekvenser, der opstod to skærme tidligere).
Fabriksscenarioet
For at simulere et manuelt arbejdsmiljø, blev emnerne bedt om at spille spillet Operation, der udfordrer brugernes fingermotorik ved at kræve, at spilleren fjerner små genstande fra en bræt gennem smalle, metalindrammede åbninger uden at røre siderne, hvilket udløser en ‘fejl’-bip.
Ved den sværeste fase, blev frivillige udfordret til at fjerne alle 12 genstande uden fejl inden for én minut. For sammenligning, verdensrekorden for denne opgave, sat i Storbritannien i 2019, står på 12,68 sekunder.
Telekonferencescenarioet
Til sidst, i hjemmearbejds-/telekonference-testen, blev frivillige bedt af en eksperimenterende over en MS Teams-opkald til at huske deres egne positive og negative minder. For den mest stressende fase af dette scenario, blev frivillige bedt om at huske en meget negativ eller sørgelig hændelse fra deres nære fortid.
De forskellige opgaver og scenarier blev udført i tilfældig rækkefølge og samlet i en brugerdefineret dataset kaldet Working-Environment-Context-Aware Dataset (WECARE-DB).
Metode og træning
Resultaterne af brugernes selv-vurderinger af deres humør blev brugt som grundsand, og kortlagt til valens- og ophidselsesdimensioner. De optagede videoer af eksperimenterne blev kørt gennem et ansigtsgenkendelsesnetværk, og de justerede billeder blev ført til et ResNet-18-netværk trænet på AffectNet-datasettet.

450.000 billeder fra AffectNet, alle tegnet/mærket fra internettet ved hjælp af emotion-relaterede forespørgsler, blev manuelt annoteret, siger artiklen. Med valens- og ophidselsesdimensioner.
Herefter forbedrede forskerne netværket udelukkende på deres egen WECARE-dataset, mens spektral repræsentationskodning blev brugt til at sammenfatte ramme-baserede forudsigelser.
Resultater
Modellens præstation blev vurderet på tre metrikker, der ofte er forbundet med automatiseret affektprediktion: Concordance Coefficient Correlation; Pearson Coefficient Correlation; og Root Mean Square Error (RMSE).

Forfatterne bemærker, at modellen, der er finjusteret på deres egen WECARE-dataset, overgår ResNet-18, og slutter, at måden, vi regulerer vores ansigtsudtryk på, er meget forskellig i et arbejdsmiljø end i de mere abstrakte kontekster, som tidligere studier har hentet materiale fra fra internettet.
De siger:
‘Når vi ser på tabellen, observerer vi, at modellen, der er finjusteret på WECARE-DB, overgår ResNet-18-modellen, der er forudtrænet på [AffectNet], hvilket indikerer, at de ansigtsudtryk, der vises i arbejdslignende miljøer, er forskellige i forhold til de i det vilde internetsæt, der er brugt i AffectNet DB. Derfor er det nødvendigt at erhverve datasets og træne modeller til at genkende ansigtsgenkendelse i arbejdslignende miljøer.’
Med hensyn til fremtiden for affektgenkendelse på arbejdspladsen, aktiveret af netværk af kameraer trænet på medarbejdere og konstant gør forudsigelser om deres emotionelle tilstand, konkluderer forfatterne*:
‘Det endelige mål er at implementere og bruge de trænede modeller i realtid og i virkelige arbejdsmiljøer for at give input til beslutningsstøttesystemer til at fremme sundhed og trivsel for mennesker under deres arbejdende alder i konteksten af EU’s arbejdende alder-projekt.’
* Min betoning.
† Her citerer forfatterne tre steder:
Automatisk, dimensionel og kontinuert genkendelse af emotioner – https://ibug.doc.ic.ac.uk/media/uploads/documents/GunesPantic_IJSE_2010_camera.pdf
Udforskning af det ambient assistive living-domæne: en systematisk gennemgang – https://link.springer.com/article/10.1007/s12652-016-0374-3
En gennemgang af Internet of Things-teknologier til ambient assistive living-miljøer – https://mdpi-res.com/d_attachment/futureinternet/futureinternet-11-00259/article_deploy/futureinternet-11-00259-v2.pdf
†† Her citerer forfatterne to steder:
Real-time kørselsdøsighedsdetektion for indlejret system ved hjælp af dyb neuralt netværkskompression – https://openaccess.thecvf.com/content_cvpr_2017_workshops/w4/papers/Reddy_Real-Time_Driver_Drowsiness_CVPR_2017_paper.pdf
Real-Time kørselsdøsighedsdetektionssystem ved hjælp af ansigtstræk – https://www.semanticscholar.org/paper/Real-Time-Driver-Drowsiness-Detection-System-Using-Deng-Wu/1f4b0094c9e70bf7aa287234e0fdb4c764a5c532












