Ângulo de Anderson
Reconhecimento de Estresse de Funcionários por Análise Facial no Trabalho

No contexto da mudança de cultura em torno da etiqueta de reuniões do Zoom, e o surgimento de fadiga do Zoom, pesquisadores de Cambridge publicaram um estudo que utiliza aprendizado de máquina para determinar nossos níveis de estresse por meio de cobertura de webcam habilitada por IA de nossas expressões faciais no trabalho.

À esquerda, o ambiente de coleta de dados, com vários equipamentos de monitoramento treinados ou anexados a um voluntário; à direita, expressões faciais geradas por voluntários em diferentes níveis de dificuldade da tarefa. Fonte: https://arxiv.org/pdf/2111.11862.pdf
A pesquisa é destinada à análise de afeto (ou seja, reconhecimento de emoções) em sistemas de “Vida Assistida Ambiente”, e presume-se que seja projetada para permitir a monitoramento de expressões faciais baseado em vídeo por meio de frameworks de IA em tais sistemas; embora o artigo não expanda sobre esse aspecto, o esforço de pesquisa não faz sentido em nenhum outro contexto.
O âmbito específico do projeto é aprender padrões de expressões faciais em ambientes de trabalho – incluindo arranjos de trabalho remoto – em vez de “lazer” ou “passivo”, como viajar.
Reconhecimento de Emoções Baseado em Expressões Faciais no Local de Trabalho
Enquanto “Vida Assistida Ambiente” pode soar como um esquema para cuidados com idosos, isso está longe de ser o caso. Falando dos “usuários finais” pretendidos, os autores afirmam*:
‘Sistemas criados para ambientes de vida assistida [†] visam realizar análise de afeto automática e resposta. A vida assistida ambientes depende do uso de tecnologia da informação e comunicação (TIC) para ajudar as pessoas em seu ambiente de vida e trabalho diário para mantê-las mais saudáveis e ativas por mais tempo, e permitir que elas vivam de forma independente à medida que envelhecem. Portanto, a vida assistida ambientes visa facilitar trabalhadores de saúde, enfermeiros, médicos, trabalhadores de fábrica, motoristas, pilotos, professores, bem como várias indústrias por meio de sensores, avaliação e intervenção.
‘O sistema pretende determinar a tensão física, emocional e mental e responder e adaptar-se conforme necessário, por exemplo, um carro equipado com um sistema de detecção de sonolência pode informar o motorista para estar atento e pode sugerir que ele faça uma pequena pausa para evitar acidentes [††].’
O artigo é intitulado Inferring User Facial Affect in Work-like Settings, e vem de três pesquisadores do Affective Intelligence & Robotics Lab em Cambridge.
Condições de Teste
Como trabalhos anteriores nesse campo dependem em grande parte de coletas de imagens ad hoc coletadas da internet, os pesquisadores de Cambridge realizaram experimentos de coleta de dados locais com 12 voluntários do campus, 5 homens e 7 mulheres. Os voluntários vieram de nove países e tinham idades entre 22 e 41 anos.
O projeto visou recriar três ambientes de trabalho potencialmente estressantes: um escritório; uma linha de produção de fábrica; e uma chamada de teleconferência – como o tipo de bate-papo em grupo do Zoom que se tornou uma característica frequente do trabalho em casa desde o início da pandemia.
Os sujeitos foram monitorados por vários meios, incluindo três câmeras, um microfone de colar Jabra, uma pulseira Empatica (um dispositivo de feedback bioelétrico sem fio que oferece feedback em tempo real), e uma faixa de cabeça sensor Muse 2 (que também oferece feedback bioelétrico). Além disso, os voluntários foram solicitados a completar questionários e autoavaliar seu humor periodicamente.

No entanto, isso não significa que futuros conjuntos de “Vida Assistida Ambiente” vão “conectar” você a esse extento (se apenas por razões de custo); todos os equipamentos de monitoramento e métodos utilizados na coleta de dados, incluindo as autoavaliações escritas, destinam-se a verificar os sistemas de reconhecimento de afeto baseados em expressões faciais habilitados por filmagens de câmera.
Aumentando a Pressão: O Cenário do Escritório
Nos dois primeiros dos três cenários (‘Escritório’ e ‘Fábrica’), os voluntários começaram com um ritmo fácil, com a pressão aumentando gradualmente ao longo de quatro fases, com diferentes tipos de tarefas para cada.
No nível mais alto de estresse induzido, os voluntários também tiveram que suportar o ‘efeito do jaleco branco’ de alguém olhando sobre seu ombro, mais 85db de ruído adicional, que é apenas cinco decibéis abaixo do limite legal para um ambiente de escritório nos EUA, e o limite máximo especificado pelo Instituto Nacional de Segurança e Saúde Ocupacional (NIOSH).
Na fase de coleta de dados semelhante a um escritório, os sujeitos foram solicitados a lembrar letras anteriores que haviam piscado em sua tela, com níveis crescentes de dificuldade (como ter que lembrar sequências de duas letras que ocorreram duas telas antes).
O Cenário da Fábrica
Para simular um ambiente de trabalho manual, os sujeitos foram solicitados a jogar o jogo Operação, que desafia a destreza do usuário exigindo que o jogador retire pequenos objetos de uma placa através de aberturas estreitas com bordas metálicas sem tocar as bordas, o que aciona um “buzzer” de falha.
Quando a fase mais difícil chegou, o voluntário foi desafiado a retirar todos os 12 itens sem erro dentro de um minuto. Para contexto, o recorde mundial para essa tarefa, estabelecido no Reino Unido em 2019, é de 12,68 segundos.
O Cenário de Teleconferência
Finalmente, no teste de trabalho em casa/teleconferência, os voluntários foram solicitados por um experimentador em uma chamada do MS Teams a lembrar memórias positivas e negativas. Para a fase mais estressante desse cenário, o voluntário foi solicitado a lembrar uma memória muito negativa ou triste de seu passado recente.
As várias tarefas e cenários foram executados em ordem aleatória e compilados em um conjunto de dados personalizado intitulado Conjunto de Dados de Conhecimento do Ambiente de Trabalho (WECARE-DB).
Método e Treinamento
Os resultados das autoavaliações dos humores dos usuários foram utilizados como verdadeiro, e mapeados para dimensões de valência e excitação. Os vídeos capturados dos experimentos foram executados por meio de uma rede de detecção de marcos faciais network, e as imagens alinhadas foram alimentadas em uma rede ResNet-18 treinada no conjunto de dados AffectNet.

450.000 imagens do AffectNet, todas desenhadas/rotuladas da internet usando consultas relacionadas a emoções, foram anotadas manualmente, afirma o artigo, com dimensões de valência e excitação.
Em seguida, os pesquisadores refinaram a rede com base apenas em seu próprio conjunto de dados WECARE, enquanto codificação de representação espectral foi utilizada para resumir previsões baseadas em quadros.
Resultados
O desempenho do modelo foi avaliado em três métricas comumente associadas à previsão de afeto automatizada: Coeficiente de Correlação de Concordância; Coeficiente de Correlação de Pearson; e Erro Quadrático Médio (RMSE).

Os autores observam que o modelo ajustado em seu próprio conjunto de dados WECARE superou o ResNet-18, e deduzem disso que a forma como governamos nossas expressões faciais é muito diferente em um ambiente de trabalho do que nos contextos mais abstratos de onde os estudos anteriores derivaram material de fonte da internet.
Eles afirmam:
‘Olhando para a tabela, observamos que o modelo ajustado no WECARE-DB superou o modelo ResNet-18 pré-treinado em [AffectNet], indicando que os comportamentos faciais exibidos em ambientes de trabalho são diferentes em comparação com os ambientes “in-the-wild” da internet utilizados no banco de dados AffectNet. Portanto, é necessário adquirir conjuntos de dados e treinar modelos para reconhecer afeto facial em ambientes de trabalho.’
Quanto ao futuro do reconhecimento de afeto no trabalho, habilitado por redes de câmeras treinadas em funcionários e constantemente fazendo previsões de seus estados emocionais, os autores concluem*:
‘O objetivo final é implementar e usar os modelos treinados em tempo real e em ambientes de trabalho reais para fornecer entrada a sistemas de suporte a decisões para promover a saúde e o bem-estar das pessoas durante sua idade de trabalho no contexto do Projeto de Idade de Trabalho da UE.’
* Minha ênfase.
† Aqui os autores fazem três citações:
Reconhecimento de Emoção Automático, Dimensional e Contínuo – https://ibug.doc.ic.ac.uk/media/uploads/documents/GunesPantic_IJSE_2010_camera.pdf
Explorando o Domínio de Vida Assistida Ambiente: uma Revisão Sistemática – https://link.springer.com/article/10.1007/s12652-016-0374-3
Uma Revisão de Tecnologias de Internet das Coisas para Ambientes de Vida Assistida Ambiente – https://mdpi-res.com/d_attachment/futureinternet/futureinternet-11-00259/article_deploy/futureinternet-11-00259-v2.pdf
†† Aqui os autores fazem duas citações:
Detecção de Sonolência do Motorista em Tempo Real para Sistema Incorporado Usando Compressão de Redes Neurais Profundas – https://openaccess.thecvf.com/content_cvpr_2017_workshops/w4/papers/Reddy_Real-Time_Driver_Drowsiness_CVPR_2017_paper.pdf
Sistema de Detecção de Sonolência do Motorista em Tempo Real Usando Recursos Faciais – https://www.semanticscholar.org/paper/Real-Time-Driver-Drowsiness-Detection-System-Using-Deng-Wu/1f4b0094c9e70bf7aa287234e0fdb4c764a5c532












