toco Reconhecendo o estresse do funcionário por meio da análise facial no trabalho - Unite.AI
Entre em contato

Assistência médica

Reconhecendo o estresse do funcionário por meio da análise facial no trabalho

mm

Publicado

 on

No contexto da cultura em mudança sobre a etiqueta da reunião do Zoom e o surgimento de Fadiga com zoom, pesquisadores de Cambridge divulgaram um estudo que usa aprendizado de máquina para determinar nossos níveis de estresse por meio da cobertura de webcam habilitada por IA de nossas expressões faciais no trabalho.

À esquerda, o ambiente de coleta de dados, com vários equipamentos de monitoramento treinados ou ligados a um voluntário; à direita, exemplos de expressões faciais geradas por sujeitos de teste em vários níveis de dificuldade da tarefa. Fonte: https://arxiv.org/pdf/2111.11862.pdf

À esquerda, o ambiente de coleta de dados, com vários equipamentos de monitoramento treinados ou ligados a um voluntário; à direita, exemplos de expressões faciais geradas por sujeitos de teste em vários níveis de dificuldade da tarefa. Fonte: https://arxiv.org/pdf/2111.11862.pdf

A pesquisa destina-se à análise de afeto (ou seja, reconhecimento de emoção) em sistemas 'Ambient Assistive Living' e, presumivelmente, é projetado para permitir estruturas de monitoramento de expressão facial de IA baseadas em vídeo em tais sistemas; embora o artigo não amplie esse aspecto, o esforço de pesquisa não faz sentido em nenhum outro contexto.

O âmbito específico do projeto é aprender padrões de expressão facial em ambientes de trabalho – incluindo arranjos de trabalho remoto – em vez de situações de 'lazer' ou 'passivas', como viajar.

Reconhecimento de emoções baseado em rosto no local de trabalho

Embora 'Ambient Assistive Living' possa soar como um esquema para cuidar de idosos, isso está longe de ser o caso. Falando dos 'usuários finais' pretendidos, os autores declaram*:

'Sistemas criados para ambientes de vida com assistência ambiental [†] visa ser capaz de realizar tanto a análise automática de afeto quanto a resposta. A vida assistida ambiental depende do uso da tecnologia de informação e comunicação (TIC) para ajudar na vida diária e no ambiente de trabalho das pessoas para mantê-las mais saudáveis ​​e ativas por mais tempo e permitir que vivam de forma independente à medida que envelhecem. Por isso, A vida assistencial ambiental visa facilitar os trabalhadores da saúde, enfermeiras, médicos, operários, motoristas, pilotos, professores, bem como várias indústrias por meio de detecção, avaliação e intervenção.

'O sistema destina-se a determinar a tensão física, emocional e mental e responder e adaptar-se conforme e quando necessário, por exemplo, um carro equipado com um sistema de detecção de sonolência pode informar o motorista para estar atento e pode sugerir que ele faça uma pequena pausa para evitar acidentes [††].'

A papel é intitulado Inferindo o efeito facial do usuário em configurações de trabalho, e vem de três pesquisadores do Affective Intelligence & Robotics Lab em Cambridge.

Condições de teste

Como trabalho prévio Neste campo tem dependido em grande parte de coleções ad hoc de imagens extraídas da internet, os pesquisadores de Cambridge conduziram experimentos locais de coleta de dados com 12 voluntários do campus, 5 homens e 7 mulheres. Os voluntários vieram de nove países e tinham entre 22 e 41 anos.

O projeto visava recriar três ambientes de trabalho potencialmente estressantes: um escritório; uma linha de produção de fábrica; e uma chamada de teleconferência – como o tipo de bate-papo em grupo do Zoom que se tornou um recurso frequente do dever de casa desde o advento da pandemia.

Os indivíduos foram monitorados por vários meios, incluindo três câmeras, um microfone Jabra colocado no pescoço, um Pulseira Empatica (um wearable multissensor sem fio que oferece biofeedback em tempo real) e um sensor de bandana Muse 2 (que também oferece biofeedback). Além disso, os voluntários foram solicitados a preencher pesquisas e autoavaliar seu humor periodicamente.

No entanto, isso não significa que as futuras plataformas Ambient Assistive Living vão 'conectar você' nessa medida (mesmo que apenas por razões de custo); todos os equipamentos e métodos de monitoramento sem câmera usados ​​na coleta de dados, incluindo as autoavaliações escritas, destinam-se a verificar os sistemas de reconhecimento de afeto baseados em face que são ativados por imagens de câmera.

Aumentando a pressão: o cenário do escritório

Nos dois primeiros dos três cenários ('Escritório' e 'Fábrica'), os voluntários iniciaram em um ritmo fácil, com a pressão aumentando gradativamente ao longo de quatro fases, com diferentes tipos de tarefas para cada uma.

No nível mais alto de estresse induzido, os voluntários também tiveram que suportar o 'efeito jaleco' de alguém olhando por cima do ombro, mais 85db de ruído adicional, o que é apenas cinco decibéis abaixo o limite legal para um ambiente de escritório nos EUA e o limite máximo exato especificado pelo Instituto Nacional de Segurança e Saúde Ocupacional (NIOSH).

Na fase de coleta de dados semelhante a um escritório, os participantes receberam a tarefa de lembrar as letras anteriores que apareceram na tela, com níveis crescentes de dificuldade (como ter que lembrar sequências de duas letras que ocorreram duas telas atrás).

O cenário de fábrica

Para simular um ambiente de trabalho manual, os sujeitos foram convidados a jogar o jogo Divisão de, que desafia a destreza do usuário exigindo que o jogador extraia pequenos objetos de um tabuleiro por meio de aberturas estreitas com borda de metal sem tocar nas laterais, evento que aciona uma campainha de 'falha'.

Cirurgia de jogo de cirurgiões

Quando chegou a fase mais difícil, o voluntário foi desafiado a extrair todos os 12 itens sem erro em um minuto. Para contextualizar, o recorde mundial para esta tarefa, estabelecido no Reino Unido em 2019, é de 12.68 segundos.

O Cenário de Teleconferência

Por fim, no teste de lição de casa/teleconferência, os voluntários foram solicitados por um experimentador durante uma ligação do MS Teams a relembrar suas próprias memórias positivas e negativas. Para a fase mais estressante deste cenário, o voluntário foi solicitado a recordar uma memória muito negativa ou triste de seu passado recente.

As várias tarefas e cenários foram executados em ordem aleatória e compilados em um conjunto de dados personalizado intitulado Conjunto de dados de reconhecimento de contexto do ambiente de trabalho (WECARE-DB).

Método e Treinamento

Os resultados das autoavaliações dos usuários sobre seu humor foram usados ​​como base e mapeados para as dimensões de valência e excitação. O vídeo capturado dos experimentos foi executado por meio de uma detecção de marco facial rede, e as imagens alinhadas alimentadas em um Rede ResNet-18 treinado no AfetoNet conjunto de dados.

450,000 imagens da AffectNet, todas desenhadas/rotuladas da internet usando consultas relacionadas a emoções, foram anotadas manualmente, diz o artigo, com dimensões de valência e excitação.

Em seguida, os pesquisadores refinaram a rede com base apenas em seu próprio conjunto de dados WECARE, enquanto codificação de representação espectral foi usado para resumir previsões baseadas em quadros.

Resultados

O desempenho do modelo foi avaliado em três métricas comumente associadas à previsão automatizada de afeto: Correlação de Coeficiente de Concordância; Correlação do Coeficiente de Pearson; e Raiz do Erro Quadrático Médio (RMSE).

Os autores observam que o modelo ajustado em seu próprio conjunto de dados WECARE superou o ResNet-18 e deduzem disso que a maneira como governamos nossas expressões faciais é muito diferente em um ambiente de trabalho do que nos contextos mais abstratos dos quais estudos anteriores derivaram. material de origem da internet.

Eles afirmam:

'Olhando para a tabela, observamos que o modelo ajustado em WECARE-DB superou o modelo ResNet-18 pré-treinado em [AffectNet], indicando que os comportamentos faciais exibidos em ambientes de trabalho são diferentes em comparação com o in-the -wild configurações de Internet utilizadas no banco de dados AffectNet. Portanto, é necessário adquirir conjuntos de dados e treinar modelos para reconhecer o afeto facial em ambientes de trabalho.'

No que diz respeito ao futuro do reconhecimento de afeto no trabalho, possibilitado por redes de câmeras treinadas para os funcionários e constantemente fazendo previsões de seus estados emocionais, os autores concluem*:

'O objetivo final é implementar e usar os modelos treinados em tempo real e em ambientes de trabalho reais para fornecer informações aos sistemas de apoio à decisão para promover a saúde e o bem-estar das pessoas durante a idade ativa no contexto do Projeto da Idade de Trabalho da UE.'

 

 

* Minha ênfase.

† Aqui os autores fazem três citações:

Reconhecimento automático, dimensional e contínuo de emoções – https://ibug.doc.ic.ac.uk/media/uploads/documents/GunesPantic_IJSE_2010_camera.pdf
Explorando o domínio de vida assistida ambiente: uma revisão sistemática – https://link.springer.com/article/10.1007/s12652-016-0374-3
Uma revisão das tecnologias da Internet das coisas para ambientes de vida assistida – https://mdpi-res.com/d_attachment/futureinternet/futureinternet-11-00259/article_deploy/futureinternet-11-00259-v2.pdf

†† Aqui os autores fazem duas citações:

Detecção de sonolência do driver em tempo real para sistema embarcado usando compressão de modelo de redes neurais profundas – https://openaccess.thecvf.com/content_cvpr_2017_workshops/w4/papers/Reddy_Real-Time_Driver_Drowsiness_CVPR_2017_paper.pdf
Sistema de detecção de sonolência do motorista em tempo real usando recursos faciais – https://www.semanticscholar.org/paper/Real-Time-Driver-Drowsiness-Detection-System-Using-Deng-Wu/1f4b0094c9e70bf7aa287234e0fdb4c764a5c532