Connect with us

Saúde

Reconhecendo o Estresse dos Funcionários por meio da Análise Facial no Trabalho

mm

No contexto da cultura em mudança em torno da etiqueta de reuniões do Zoom, e o surgimento de fadiga do Zoom, pesquisadores de Cambridge lançaram um estudo que usa aprendizado de máquina para determinar nossos níveis de estresse por meio de cobertura de webcam habilitada por IA de nossas expressões faciais no trabalho.

À esquerda, o ambiente de coleta de dados, com vários equipamentos de monitoramento treinados ou anexados a um voluntário; à direita, exemplos de expressões faciais geradas por voluntários em diferentes níveis de dificuldade da tarefa. Fonte: https://arxiv.org/pdf/2111.11862.pdf

À esquerda, o ambiente de coleta de dados, com vários equipamentos de monitoramento treinados ou anexados a um voluntário; à direita, exemplos de expressões faciais geradas por voluntários em diferentes níveis de dificuldade da tarefa. Fonte: https://arxiv.org/pdf/2111.11862.pdf

A pesquisa é destinada à análise de afeto (ou seja, reconhecimento de emoções) em sistemas de “Vida Assistida Ambiente”, e presumivelmente é projetada para permitir que frameworks de monitoramento de expressões faciais baseados em vídeo sejam habilitados por IA em tais sistemas; embora o artigo não expanda sobre esse aspecto, o esforço de pesquisa não faz sentido em nenhum outro contexto.

O âmbito específico do projeto é aprender padrões de expressões faciais em ambientes de trabalho – incluindo arranjos de trabalho remoto – em vez de situações “de lazer” ou “passivas”, como viagens.

Reconhecimento de Emoções Baseado em Expressões Faciais no Local de Trabalho

Enquanto “Vida Assistida Ambiente” pode soar como um esquema para cuidados com idosos, isso está longe de ser o caso. Falando sobre os “usuários finais” pretendidos, os autores afirmam*:

‘Sistemas criados para ambientes de vida assistida [†] visam realizar análise de afeto automática e responder. A vida assistida ambiente depende do uso de tecnologia da informação e comunicação (TIC) para ajudar no ambiente de vida e trabalho diário de uma pessoa para mantê-la mais saudável e ativa por mais tempo, e permitir que ela viva de forma independente à medida que envelhece. Portanto, a vida assistida ambiente visa facilitar trabalhadores de saúde, enfermeiros, médicos, trabalhadores de fábrica, motoristas, pilotos, professores, bem como várias indústrias por meio de sensoriamento, avaliação e intervenção.

‘O sistema pretende determinar a tensão física, emocional e mental e responder e adaptar-se conforme necessário, por exemplo, um carro equipado com um sistema de detecção de sonolência pode informar o motorista para estar atento e pode sugerir que ele faça uma pequena pausa para evitar acidentes [††].’

O artigo é intitulado Inferindo o Afeto Facial do Usuário em Configurações de Trabalho, e vem de três pesquisadores do Laboratório de Inteligência Afectiva e Robótica de Cambridge.

Condições de Teste

Desde que trabalhos anteriores nesse campo dependem em grande parte de coletas ad hoc de imagens raspadas da internet, os pesquisadores de Cambridge conduziram experimentos de coleta de dados locais com 12 voluntários do campus, 5 homens e 7 mulheres. Os voluntários vieram de nove países e tinham idades entre 22 e 41 anos.

O projeto visava recriar três ambientes de trabalho potencialmente estressantes: um escritório; uma linha de produção de fábrica; e uma chamada de teleconferência – como o tipo de bate-papo em grupo do Zoom que se tornou uma característica frequente do trabalho em casa desde o início da pandemia.

Os sujeitos foram monitorados por vários meios, incluindo três câmeras, um microfone de pescoço Jabra, uma pulseira Empatica (um dispositivo wearable sem fio que oferece feedback bioelétrico em tempo real), e uma faixa sensora Muse 2 (que também oferece feedback bioelétrico). Além disso, os voluntários foram solicitados a completar pesquisas e autoavaliar seu humor periodicamente.

No entanto, isso não significa que futuros conjuntos de “Vida Assistida Ambiente” vão “conectá-lo” a esse extento (se apenas por razões de custo); todos os equipamentos de monitoramento não câmera e métodos usados na coleta de dados, incluindo as autoavaliações escritas, são destinados a verificar os sistemas de reconhecimento de afeto baseados em expressões faciais habilitados por footage de câmera.

Aumentando a Pressão: O Cenário do Escritório

No primeiro dos três cenários (‘Escritório’ e ‘Fábrica’), os voluntários começaram com um ritmo fácil, com a pressão aumentando gradualmente ao longo de quatro fases, com diferentes tipos de tarefas para cada.

No nível mais alto de estresse induzido, os voluntários também tiveram que suportar o ‘efeito do jaleco branco’ de alguém olhando por cima de seu ombro, mais 85 decibéis de ruído adicional, que é apenas cinco decibéis abaixo do limite legal para um ambiente de escritório nos EUA, e o limite máximo especificado pelo Instituto Nacional de Segurança e Saúde Ocupacional (NIOSH).

Na fase de coleta de dados do escritório, os sujeitos foram solicitados a lembrar letras anteriores que haviam piscado em sua tela, com níveis crescentes de dificuldade (como ter que lembrar sequências de duas letras que ocorreram duas telas antes).

O Cenário da Fábrica

Para simular um ambiente de trabalho manual, os sujeitos foram solicitados a jogar o jogo Operation, que desafia a destreza do usuário exigindo que o jogador retire pequenos objetos de uma placa através de aberturas estreitas com bordas metálicas, sem tocar as bordas, o que dispara um buzzer de “falha”.

Quando a fase mais difícil chegou, o voluntário foi desafiado a retirar todos os 12 itens sem erro dentro de um minuto. Para contexto, o recorde mundial para essa tarefa, estabelecido no Reino Unido em 2019, está em 12,68 segundos.

O Cenário de Teleconferência

Finalmente, no teste de trabalho em casa/teleconferência, os voluntários foram solicitados por um experimentador por meio de uma chamada do MS Teams para lembrar suas próprias memórias positivas e negativas. Para a fase mais estressante desse cenário, o voluntário foi solicitado a lembrar uma memória muito negativa ou triste de seu passado recente.

As várias tarefas e cenários foram executados em ordem aleatória e compilados em um conjunto de dados personalizado intitulado Working-Environment-Context-Aware Dataset (WECARE-DB).

Método e Treinamento

Os resultados das autoavaliações dos humores dos usuários foram usados como verdade fundamentada, e mapeados para dimensões de valência e excitação. O vídeo capturado dos experimentos foi executado por meio de uma rede de detecção de marcos faciais network, e as imagens alinhadas foram alimentadas em uma rede ResNet-18 treinada no conjunto de dados AffectNet.

450.000 imagens do AffectNet, todas desenhadas/rotuladas da internet usando consultas relacionadas a emoções, foram anotadas manualmente, afirma o artigo, com dimensões de valência e excitação.

Em seguida, os pesquisadores refinaram a rede com base apenas em seu próprio conjunto de dados WECARE, enquanto codificação de representação espectral foi usada para resumir previsões baseadas em frames.

Resultados

O desempenho do modelo foi avaliado em três métricas comumente associadas à previsão automática de afeto: Coeficiente de Correlação Concordância; Coeficiente de Correlação de Pearson; e Erro Quadrático Médio (RMSE).

Os autores observam que o modelo ajustado finamente em seu próprio conjunto de dados WECARE superou o ResNet-18, e deduzem disso que a forma como governamos nossas expressões faciais é muito diferente em um ambiente de trabalho do que em contextos mais abstratos a partir dos quais estudos anteriores derivaram material de fonte da internet.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.