Salud

Reconocimiento del estrés laboral a través del análisis facial en el trabajo

Published November 24, 2021

Updated April 5, 2026

Martin Anderson

En el contexto de la cambiente cultura en torno a la etiqueta de las reuniones de Zoom, y la aparición de fatiga de Zoom, investigadores de Cambridge han publicado un estudio que utiliza el aprendizaje automático para determinar nuestros niveles de estrés a través de la cobertura de la cámara web habilitada por IA de nuestras expresiones faciales en el trabajo.

A la izquierda, el entorno de recopilación de datos, con varios equipos de monitoreo entrenados o conectados a un voluntario; a la derecha, ejemplos de expresiones faciales generadas por sujetos de prueba en diferentes niveles de dificultad de la tarea. Fuente: https://arxiv.org/pdf/2111.11862.pdf

La investigación está destinada al análisis de afecto (es decir, reconocimiento de emociones) en sistemas de “Vida Asistida Ambiental”, y presumiblemente está diseñada para permitir marcos de monitoreo de expresiones faciales basados en video y IA en dichos sistemas; aunque el documento no amplía sobre este aspecto, el esfuerzo de investigación no tiene sentido en ningún otro contexto.

El ámbito específico del proyecto es aprender patrones de expresiones faciales en entornos laborales – incluyendo arreglos de trabajo remoto – en lugar de situaciones de “ocio” o “pasivas”, como viajar.

Reconocimiento de emociones basado en el rostro en el lugar de trabajo

Mientras que “Vida Asistida Ambiental” puede sonar como un esquema para el cuidado de los ancianos, eso está lejos de ser el caso. Hablando de los “usuarios finales” destinados, los autores afirman*:

‘Los sistemas creados para entornos de vida asistida ambiental [†] tienen como objetivo realizar tanto el análisis de afecto automático como la respuesta. La vida asistida ambiental se basa en el uso de tecnología de la información y la comunicación (TIC) para ayudar en el entorno de vida y trabajo diario de una persona para mantenerla más sana y activa durante más tiempo, y permitirles vivir de manera independiente a medida que envejecen. Por lo tanto, la vida asistida ambiental tiene como objetivo facilitar a los trabajadores de la salud, enfermeras, médicos, trabajadores de fábrica, conductores, pilotos, maestros, así como diversas industrias a través de la detección, evaluación e intervención.

‘El sistema está diseñado para determinar la tensión física, emocional y mental y responder y adaptarse según sea necesario, por ejemplo, un automóvil equipado con un sistema de detección de somnolencia puede informar al conductor que debe estar atento y puede sugerirle que tome un descanso para evitar accidentes [††].’

El documento se titula Infiriendo el afecto facial del usuario en entornos de trabajo, y proviene de tres investigadores del Laboratorio de Inteligencia Afectiva y Robótica de Cambridge.

Condiciones de prueba

Dado que trabajos anteriores en este campo han dependido en gran medida de colecciones ad hoc de imágenes recopiladas de Internet, los investigadores de Cambridge realizaron experimentos de recopilación de datos locales con 12 voluntarios del campus, 5 hombres y 7 mujeres. Los voluntarios provenían de nueve países y tenían edades entre 22 y 41 años.

El proyecto tenía como objetivo recrear tres entornos laborales potencialmente estresantes: una oficina; una línea de producción de fábrica; y una llamada de teleconferencia – como el tipo de chat grupal de Zoom que se ha convertido en una característica frecuente del trabajo en casa desde el comienzo de la pandemia.

Los sujetos fueron monitoreados por various medios, incluyendo tres cámaras, un micrófono de cuello Jabra, una pulsera Empatica (un dispositivo wearable inalámbrico de múltiples sensores que ofrece retroalimentación bioeléctrica en tiempo real), y una banda sensora de cabeza Muse 2 (que también ofrece retroalimentación bioeléctrica). Además, se les pidió a los voluntarios que completaran encuestas y evaluaran su estado de ánimo periódicamente.

Sin embargo, esto no significa que los futuros sistemas de Vida Asistida Ambiental los “conecten” a ese extento (si solo por razones de costo); todos los equipos de monitoreo no cámaras y métodos utilizados en la recopilación de datos, incluyendo las autoevaluaciones escritas, están destinados a verificar los sistemas de reconocimiento de afecto basados en el rostro que están habilitados por la filmación de la cámara.

Aumentando la presión: El escenario de la oficina

En los dos primeros escenarios (‘Oficina’ y ‘Fábrica’), los voluntarios comenzaron a un ritmo fácil, con la presión aumentando gradualmente durante cuatro fases, con diferentes tipos de tareas para cada una.

En el nivel más alto de estrés inducido, los voluntarios también tuvieron que soportar el ‘efecto del abrigo blanco’ de alguien mirando sobre su hombro, más 85 decibelios de ruido adicional, que es solo cinco decibelios por debajo del límite legal para un entorno de oficina en los EE. UU., y el límite máximo especificado por el Instituto Nacional de Seguridad y Salud Ocupacional (NIOSH).

En la fase de recopilación de datos de la oficina, los sujetos fueron asignados para recordar letras anteriores que habían aparecido en su pantalla, con niveles de dificultad crecientes (como tener que recordar secuencias de dos letras que ocurrieron dos pantallas atrás).

El escenario de la fábrica

Para simular un entorno de trabajo manual, se les pidió a los sujetos que jugaran el juego Operación, que desafía la destreza del usuario al requerir que el jugador extraiga objetos pequeños de una tabla a través de aberturas estrechas con bordes metálicos sin tocar los lados, lo que activa una alarma de “fracaso”.

Para el momento en que llegó la fase más difícil, el voluntario fue desafiado a extraer los 12 artículos sin error dentro de un minuto. Para contexto, el récord mundial para esta tarea, establecido en el Reino Unido en 2019, está en 12,68 segundos.

El escenario de la teleconferencia

Finalmente, en la prueba de trabajo en casa/teleconferencia, se les pidió a los voluntarios que recordaran sus propias memorias positivas y negativas por parte de un experimentador a través de una llamada de MS Teams. Para la fase más estresante de este escenario, el voluntario fue requerido a recordar una memoria muy negativa o triste de su pasado reciente.

Las diversas tareas y escenarios se ejecutaron en orden aleatorio y se compilaron en un conjunto de datos personalizado titulado Base de datos de contexto de entorno de trabajo (WECARE-DB).

Método y capacitación

Los resultados de las autoevaluaciones de los usuarios de su estado de ánimo se utilizaron como verdad fundamental, y se mapearon a dimensiones de valencia y arousal. El video capturado de los experimentos se ejecutó a través de una red de detección de puntos de referencia faciales red, y las imágenes alineadas se alimentaron a una red ResNet-18 entrenada en el conjunto de datos AffectNet.

450.000 imágenes de AffectNet, todas dibujadas/etiquetadas de Internet utilizando consultas relacionadas con emociones, fueron anotadas manualmente, según el documento, con dimensiones de valencia y arousal.

A continuación, los investigadores refinaron la red basada únicamente en su propio conjunto de datos WECARE, mientras que la codificación de representación espectral se utilizó para resumir predicciones basadas en cuadros.

Resultados

El rendimiento del modelo se evaluó en tres métricas comúnmente asociadas con la predicción automática de afecto: Coeficiente de correlación de concordancia; Coeficiente de correlación de Pearson; y Error cuadrático medio (ECM).

Los autores observan que el modelo ajustado en su propio conjunto de datos WECARE superó a ResNet-18, y deducen de esto que la forma en que gobernamos nuestras expresiones faciales es muy diferente en un entorno laboral que en contextos más abstractos de los que se derivan materiales de Internet.