Angolo di Anderson
Riconoscimento dello Stress dei Dipendenti attraverso l’Analisi Faciale sul Lavoro

Nel contesto della cultura in evoluzione intorno all’etichetta delle riunioni di Zoom e all’emergere della fatica da Zoom, i ricercatori di Cambridge hanno pubblicato uno studio che utilizza l’apprendimento automatico per determinare i nostri livelli di stress attraverso la copertura delle espressioni facciali sul posto di lavoro abilitata da webcam AI.

A sinistra, l’ambiente di raccolta dei dati, con多 apparecchi di monitoraggio puntati su un volontario o attaccati a esso; a destra, esempi di espressioni facciali generate da soggetti sottoposti a livelli di difficoltà del compito variabili. Fonte: https://arxiv.org/pdf/2111.11862.pdf
La ricerca è destinata all’analisi degli affetti (cioè, riconoscimento delle emozioni) in sistemi di “Vita Assistita Ambientale” e presumibilmente è progettata per abilitare framework di monitoraggio delle espressioni facciali basati su video e AI in tali sistemi; sebbene il documento non si dilunghi su questo aspetto, lo sforzo di ricerca non ha senso in alcun altro contesto.
L’ambito specifico del progetto è quello di apprendere modelli di espressioni facciali in ambienti di lavoro – compresi gli accordi di lavoro a distanza – piuttosto che in situazioni di “svago” o “passive”, come viaggiare.
Riconoscimento delle Emozioni Facce sul Posto di Lavoro
Mentre “Vita Assistita Ambientale” potrebbe sembrare uno schema per la cura degli anziani, non è affatto il caso. Parlando degli “utenti finali” destinatari, gli autori affermano*:
‘I sistemi creati per ambienti di vita assistita [†] hanno l’obiettivo di eseguire analisi affettiva automatica e rispondere. La vita assistita ambientale si basa sull’utilizzo di tecnologie dell’informazione e della comunicazione (TIC) per aiutare le persone nella loro vita quotidiana e nel loro ambiente di lavoro per mantenerle più a lungo in salute e attive, e consentire loro di vivere in modo indipendente mentre invecchiano. Pertanto, la vita assistita ambientale mira a facilitare i lavoratori sanitari, le infermiere, i medici, i lavoratori di fabbrica, gli autisti, i piloti, gli insegnanti e vari settori attraverso il rilevamento, la valutazione e l’intervento.
‘Il sistema è destinato a determinare lo sforzo fisico, emotivo e mentale e rispondere e adattarsi come e quando necessario, ad esempio, un’auto dotata di un sistema di rilevamento della sonnolenza può informare l’autista di essere attento e può suggerirgli di fare una breve pausa per evitare incidenti [††].’
Il documento è intitolato Inferring User Facial Affect in Work-like Settings e proviene da tre ricercatori del Laboratorio di Intelligenza Affettiva e Robotica di Cambridge.
Condizioni di Test
Poiché lavori precedenti in questo campo si sono basati in gran parte su raccolte di immagini ad hoc raccolte da Internet, i ricercatori di Cambridge hanno condotto esperimenti di raccolta di dati locali con 12 volontari del campus, 5 maschi e 7 femmine. I volontari provenivano da nove paesi e avevano un’età compresa tra 22 e 41 anni.
Il progetto aveva l’obiettivo di ricreare tre ambienti di lavoro potenzialmente stressanti: un ufficio; una linea di produzione di fabbrica; e una telefonata di teleconferenza – come il tipo di chat di gruppo Zoom che è diventata una caratteristica frequente del lavoro a distanza dall’avvento della pandemia.
I soggetti sono stati monitorati attraverso vari mezzi, tra cui tre telecamere, un microfono Jabra indossato al collo, una fascia Empatica (un dispositivo wireless multisensore che offre feedback in tempo reale), e una fascia sensoriale Muse 2 (che offre anche feedback). Inoltre, i volontari sono stati invitati a compilare sondaggi e a valutare periodicamente il loro umore.

Tuttavia, ciò non significa che future strutture di Vita Assistita Ambientale debbano “collegarti” a quel punto (se non per motivi di costo); tutti i dispositivi di monitoraggio e i metodi utilizzati nella raccolta dei dati, comprese le valutazioni scritte, sono destinati a verificare i sistemi di riconoscimento delle espressioni facciali abilitati dalle immagini delle telecamere.
Aumentando la Pressione: Lo Scenario dell’Ufficio
Nelle prime due delle tre scenarii (‘Ufficio’ e ‘Fabbrica’), i volontari sono stati iniziati a un ritmo facile, con la pressione che aumentava gradualmente in quattro fasi, con tipi di compito diversi per ciascuna.
Al livello di stress più alto indotto, i volontari hanno anche dovuto sopportare l'”effetto del camice bianco” di qualcuno che li guardava sopra la spalla, più 85 db di rumore aggiuntivo, che è solo cinque decibel al di sotto del limite legale per un ambiente di ufficio negli Stati Uniti, e il limite massimo specificato dall’Istituto Nazionale per la Sicurezza e la Salute sul Lavoro (NIOSH).
Nella fase di raccolta dei dati simile a un ufficio, i soggetti sono stati incaricati di ricordare le lettere precedenti che lampeggiavano sul loro schermo, con livelli di difficoltà crescenti (come ricordare sequenze di due lettere che si sono verificate due schermi fa).
Lo Scenario della Fabbrica
Per simulare un ambiente di lavoro manuale, i soggetti sono stati invitati a giocare al gioco Operation, che sfida la destrezza dell’utente richiedendogli di estrarre piccoli oggetti da una tavola attraverso aperture metalliche strette senza toccare i bordi, il che attiva un buzzer di “fallimento”.
Quando è arrivata la fase più difficile, il volontario è stato sfidato a estrarre tutti e 12 gli oggetti senza errori all’interno di un minuto. Per contestualizzare, il record mondiale per questo compito, stabilito nel Regno Unito nel 2019, sta a 12,68 secondi.
Lo Scenario della Teleconferenza
Infine, nel test di lavoro a distanza/teleconferenza, i volontari sono stati invitati da un sperimentatore tramite una chiamata MS Teams a ricordare i propri ricordi positivi e negativi. Per la fase più stressante di questo scenario, il volontario è stato richiesto di ricordare un ricordo molto negativo o triste dal proprio recente passato.
Le varie attività e scenari sono stati eseguiti in ordine casuale e raccolti in un set di dati personalizzato intitolato Working-Environment-Context-Aware Dataset (WECARE-DB).
Metodo e Formazione
I risultati delle autovalutazioni dell’umore degli utenti sono stati utilizzati come verità di riferimento e mappati sulle dimensioni della valenza e dell’arousal. I video catturati degli esperimenti sono stati eseguiti attraverso una rete di rilevamento dei punti di riferimento facciali network e le immagini allineate sono state fornite a una rete ResNet-18 addestrata sul set di dati AffectNet.

450.000 immagini da AffectNet, tutte tratte/etichettate da Internet utilizzando query correlate alle emozioni, sono state annotate manualmente, afferma il documento.
Successivamente, i ricercatori hanno raffinato la rete basandosi solo sul loro set di dati WECARE, mentre la codifica della rappresentazione spettrale è stata utilizzata per riassumere le previsioni basate su frame.
Risultati
Le prestazioni del modello sono state valutate su tre metriche comunemente associate alla previsione automatica degli affetti: Coefficiente di Correlazione Concordante; Coefficiente di Correlazione di Pearson; e Root Mean Square Error (RMSE).

Gli autori notano che il modello ottimizzato sul loro set di dati WECARE ha superato ResNet-18 e ne deducono che il modo in cui governiamo le nostre espressioni facciali è molto diverso in un ambiente di lavoro rispetto ai contesti più astratti da cui sono stati derivati materiali di studio da Internet.
Affermano:
‘Guardando la tabella, osserviamo che il modello ottimizzato su WECARE-DB ha superato il modello ResNet-18 pre-addestrato su [AffectNet], indicando che i comportamenti facciali visualizzati in ambienti di lavoro sono diversi rispetto ai contesti Internet utilizzati nel set di dati AffectNet. Pertanto, è necessario acquisire set di dati e addestrare modelli per il riconoscimento degli affetti facciali in ambienti di lavoro.’
Per quanto riguarda il futuro del riconoscimento degli affetti sul posto di lavoro, abilitato da reti di telecamere puntate sugli dipendenti e costantemente in grado di prevedere i loro stati emotivi, gli autori concludono*:
‘L’obiettivo finale è implementare e utilizzare i modelli addestrati in tempo reale e in ambienti di lavoro reali per fornire input a sistemi di supporto alle decisioni per promuovere la salute e il benessere delle persone durante la loro età lavorativa nel contesto del Progetto Età Lavorativa dell’UE.’
* La mia enfasi.
† Qui gli autori fanno tre citazioni:
Riconoscimento delle emozioni automatico, dimensionale e continuo – https://ibug.doc.ic.ac.uk/media/uploads/documents/GunesPantic_IJSE_2010_camera.pdf
Esplorazione del dominio della vita assistita ambientale: una revisione sistematica – https://link.springer.com/article/10.1007/s12652-016-0374-3
Una revisione delle tecnologie Internet delle Cose per ambienti di vita assistita – https://mdpi-res.com/d_attachment/futureinternet/futureinternet-11-00259/article_deploy/futureinternet-11-00259-v2.pdf
†† Qui gli autori fanno due citazioni:
Rilevamento della sonnolenza del conducente in tempo reale per sistemi embedded utilizzando la compressione del modello di reti neurali profonde – https://openaccess.thecvf.com/content_cvpr_2017_workshops/w4/papers/Reddy_Real-Time_Driver_Drowsiness_CVPR_2017_paper.pdf
Sistema di rilevamento della sonnolenza del conducente in tempo reale che utilizza caratteristiche facciali – https://www.semanticscholar.org/paper/Real-Time-Driver-Drowsiness-Detection-System-Using-Deng-Wu/1f4b0094c9e70bf7aa287234e0fdb4c764a5c532












