Helse

Gjenkjenning av ansattstress gjennom ansiktsanalyse på arbeidsplassen

Published November 24, 2021

Updated April 5, 2026

Martin Anderson

I sammenheng med den endrede kulturen rundt Zoom-møte-etikette, og fremveksten av Zoom-utmattelse, har forskere fra Cambridge publisert en studie som bruker maskinlæring til å bestemme vår stressnivå via AI-aktivert webcam-dekning av våre ansiktsuttrykk på arbeidsplassen.

Til venstre, datainnsamlingsmiljøet, med flere overvåkningsenheter enten rettet mot eller festet til en frivillig; til høyre, eksempler på ansiktsuttrykk generert av testpersoner ved varierende nivåer av oppgavevanskelighet. Kilde: https://arxiv.org/pdf/2111.11862.pdf

Forskningen er ment for affektanalyse (dvs. gjenkjenning av emosjoner) i ‘Ambient Assistive Living’-systemer, og antas å være designet for å aktivere video-basert AI-ansiktsuttrykks-overvåking i slike systemer; selv om artikkelen ikke utdyper dette aspektet, gjør forskningsinnsatsen ingen mening i noen annen sammenheng.

Det spesifikke området for prosjektet er å lære ansiktsuttrykksmønster i arbeidsmiljøer – inkludert hjemme-arbeidsordninger – snarere enn ‘fritid’ eller ‘passive’ situasjoner, som reising.

Ansikt-basert gjenkjenning av emosjoner på arbeidsplassen

Mens ‘Ambient Assistive Living’ kan høres ut som en ordning for eldreomsorg, er det langt fra tilfelle. Snakkende om de mentale ‘slutbrukerne’, sier forfatterne*:

‘Systemer skapt for ambient assistive living-miljøer [†] har som mål å kunne utføre både automatisk affektanalyse og respons. Ambient assistive living avhenger av bruk av informasjons- og kommunikasjonsteknologi (IKT) for å hjelpe personer i deres daglige liv og arbeidsmiljø for å holde dem sunne og aktive lengre, og muliggjøre at de kan bo uavhengig så lenge de blir eldre. Derfor har ambient assistive living som mål å hjelpe helsearbeidere, sykepleiere, leger, fabrikkarbeidere, sjåfører, piloter, lærere samt ulike industrier via sansning, vurdering og inngripen.

‘Systemet er ment å bestemme den fysiske, emosjonelle og mentale belastningen og respondere og tilpasse når det er nødvendig, for eksempel kan en bil utstyrt med en søvndriftsdeteksjonssystem informere sjåføren om å være oppmerksom og kan foreslå å ta en liten pause for å unngå ulykker [††].’

Artikkelen hefter tittelen Inferring User Facial Affect in Work-like Settings, og kommer fra tre forskere ved Affective Intelligence & Robotics Lab ved Cambridge.

Testbetingelser

Siden tidligere arbeid i dette feltet har avhengig mye av ad hoc-samlinger av bilder skrapt fra internettet, gjennomførte Cambridge-forskerne lokale datainnsamlings-eksperimenter med 12 campus-frivillige, 5 menn og 7 kvinner. Frivillige kom fra ni land, og var i alderen 22-41.

Prosjektet hadde som mål å rekonstruere tre potensielt stressende arbeidsmiljøer: et kontor; en fabrikkproduksjonslinje; og en telekonferanse – som den type Zoom-gruppe-samtale som har blitt en hyppig forekommende del av hjemme-arbeid siden pandemien.

Forsøkspersoner ble overvåket på ulike måter, inkludert tre kameraer, en Jabra halsbånd-mikrofon, en Empatica-armbånd (en trådløs multi-sensor bærbar enhet som tilbyr sanntids-biofeedback), og en Muse 2 hodebånd-sensor (som også tilbyr biofeedback). I tillegg ble frivillige bedt om å fullføre undersøkelser og selv-vurdere sin humør periodisk.

Men dette betyr ikke at fremtidige Ambient Assistive Living-utstyr kommer til ‘å plugge deg inn’ til den grad (om ikke annet enn på grunn av kostnadsårsaker); all ikke-kamera-overvåkingsutstyr og -metoder som ble brukt i datainnsamlingen, inkludert skriftlige selv-vurderinger, er ment å verifisere ansikt-basert affekt-gjenkjenningssystemer som er aktivert av kamera-opptak.

Økende press: Kontorscenarioet

I de to første av de tre scenarioene (‘Kontor’ og ‘Fabrikk’), ble frivillige startet i en lett fase, med økende press over fire faser, med ulike typer oppgaver for hver.

Ved det høyeste nivået av indusert stress, måtte frivillige også tåle ‘hvite jakke-effekten’ av noen som så over skulderen, pluss 85 db ekstra støy, som er bare fem desibel under den lovmessige grensen for et kontormiljø i USA, og det eksakte maksimumsgrensen spesifisert av National Institute for Occupational Safety and Health (NIOSH).

I kontor-lignende datainnsamlingsfasen, ble forsøkspersoner bedt om å huske tidligere bokstaver som hadde blitt vist på skjermen, med økende vanskelighetsgrad (slik som å huske to-bokstavs-sekvenser som skjedde to skjermer tidligere).

Fabrikk-scenarioet

For å simulere et manuelt arbeidsmiljø, ble forsøkspersoner bedt om å spille spillet Operation, som utfordrer brukerens fingerferdighet ved å kreve at spilleren fjerner små objekter fra en brett gjennom smale, metallrammede åpninger uten å berøre sidene, som utløser en ‘feil’-buzzer.

Ved den tøffeste fasen, ble frivillige utfordret til å fjerne alle 12 objekter uten feil innen én minutt. For sammenheng, er verdensrekorden for denne oppgaven, satt i Storbritannia i 2019, 12,68 sekunder.

Telekonferansescenarioet

Til slutt, i hjemme-arbeid/telekonferanse-testen, ble frivillige bedt av en eksperimenterer over en MS Teams-samtale om å huske sine egne positive og negative minner. For den mest stressende fasen av dette scenarioet, ble frivillige bedt om å huske et svært negativt eller trist minne fra sin nylige fortid.

De ulike oppgavene og scenarioene ble utført i tilfeldig rekkefølge, og samlet inn i en bransje-datasett kalt Working-Environment-Context-Aware Dataset (WECARE-DB).

Metode og trening

Resultatene av brukernes selv-vurderinger av sin humør ble brukt som grunn-sannhet, og kartlagt til valens- og opphisselse-dimensjoner. De fanget videoene av eksperimentene ble kjørt gjennom et ansikts-landmerke-deteksjons nettverk, og de justerte bildene ble matet til et ResNet-18 nettverk trent på AffectNet-datasettet.

450 000 bilder fra AffectNet, alle tegnet/merket fra internettet ved hjelp av emosjons-relaterte spørringer, ble manuelt annotert, sier artikkelen. Deretter forbedret forskerne nettverket utelukkende basert på deres eget WECARE-datasett, mens spektral representasjon-koding ble brukt til å summerere ramme-basert forutsåelse.

Resultater

Modellens ytelse ble evaluert på tre målinger som vanligvis er forbundet med automatisert affekt-prediksjon: Konsordans-koeffisient-korrelasjon; Pearson-koeffisient-korrelasjon; og Rot-middel-feil (RMSE).

Forfatterne påpeker at modellen finjustert på deres eget WECARE-dataset overgikk ResNet-18, og slutter fra dette at måten vi styrer våre ansiktsuttrykk på er svært forskjellig i et arbeidsmiljø enn i de mer abstrakte sammenhengene som tidligere studier har hentet kilde-materiale fra internettet.