Здравоохранение

Распознавание стресса сотрудников через анализ лица на работе

Published November 24, 2021

Updated April 5, 2026

Martin Anderson

В контексте изменяющейся культуры вокруг этикета видеоконференций Zoom и возникновения усталости от Zoom, исследователи из Кембриджа опубликовали исследование, которое использует машинное обучение для определения нашего уровня стресса через анализ наших лиц на работе с помощью веб-камеры, оснащенной ИИ.

Слева, среда сбора данных с несколькими устройствами слежения, либо обученными на, либо прикрепленными к добровольцу; справа, примеры выражений лица, сгенерированные испытуемыми на различных уровнях сложности задач. Источник: https://arxiv.org/pdf/2111.11862.pdf

Исследование предназначено для анализа эмоций (т.е. распознавания эмоций) в системах “Ambient Assistive Living” и, по-видимому, предназначено для включения видео-анализа выражений лица в таких системах; хотя статья не расширяет этот аспект, усилия по исследованию не имеют смысла в любом другом контексте.

Конкретная цель проекта – изучить закономерности выражений лица на рабочем месте – включая удаленную работу – а не “досуг” или “пассивные” ситуации, такие как путешествия.

Распознавание эмоций на основе лица на рабочем месте

Хотя “Ambient Assistive Living” может звучать как схема для ухода за пожилыми людьми, это далеко не так. Говоря об “конечных пользователях”, авторы утверждают*:

‘Системы, созданные для среды Ambient Assistive Living, [†] направлены на выполнение автоматического анализа эмоций и реагирования. Ambient Assistive Living полагается на использование информационных и коммуникационных технологий (ИКТ) для помощи в повседневной жизни и работе человека, чтобы сохранить его здоровье и активность на более долгий период и позволить ему жить самостоятельно, когда он стареет. Таким образом, Ambient Assistive Living направлена на облегчение работы медицинских работников, медсестер, врачей, рабочих на фабриках, водителей, пилотов, учителей, а также различных отраслей промышленности посредством обнаружения, оценки и вмешательства.

‘Система предназначена для определения физического, эмоционального и психического напряжения и реагирования и адаптации по мере необходимости, например, автомобиль, оснащенный системой обнаружения сонливости, может сообщить водителю, чтобы он был внимательным и предложить ему сделать небольшой перерыв, чтобы избежать аварий [††].’

Статья называется Определение эмоций пользователя по выражению лица в рабочей обстановке и исходит от трех исследователей из лаборатории Affective Intelligence & Robotics в Кембридже.

Условия тестирования

Поскольку предыдущие исследования в этой области в значительной степени полагались на случайные коллекции изображений, собранные из Интернета, исследователи из Кембриджа провели местные эксперименты по сбору данных с 12 добровольцами на кампусе, 5 мужчинами и 7 женщинами. Добровольцы пришли из девяти стран и были в возрасте от 22 до 41 года.

Целью проекта было воссоздание трех потенциально стрессовых рабочих сред: офиса; производственной линии фабрики; и видеоконференции – такого типа видеозвонка, который стал частой особенностью домашней работы с момента появления пандемии.

Испытуемые контролировались различными методами, включая три камеры, микрофон Jabra, носимый на шее, браслет Empatica (беспроводной многосенсорный носимый прибор, предлагающий биологическую обратную связь в режиме реального времени) и сенсорную головную повязку Muse 2 (которая также предлагает биологическую обратную связь). Кроме того, добровольцам было предложено заполнить опросы и периодически оценивать свое настроение.

Однако это не означает, что будущие системы Ambient Assistive Living будут “подключать” вас до такой степени (если только по причинам стоимости); все методы и оборудование для слежения, использованные при сборе данных, включая письменные самооценки, предназначены для проверки систем распознавания эмоций на основе лица, которые включены в видеозапись.

Повышение давления: Сценарий офиса

В первых двух из трех сценариев (“Офис” и “Фабрика”) добровольцам была предложена начальная фаза с легким темпом, с постепенным увеличением давления в четырех фазах, с разными типами задач для каждой.

На самом высоком уровне индуцированного стресса добровольцам также пришлось выдержать “эффект белого халата” наличия человека, наблюдающего за их работой, плюс 85 дБ дополнительного шума, что всего на пять децибел ниже юридического предела для офисной среды в США и точного максимального предела, указанного Национальным институтом охраны труда и здоровья (NIOSH).

В офисной фазе сбора данных испытуемым было предложено запомнить предыдущие буквы, которые мелькали на их экране, с возрастающей сложностью (например, им пришлось запомнить последовательности из двух букв, которые появлялись на экране два экрана назад).

Сценарий фабрики

Чтобы смоделировать ручную трудовую среду, испытуемым было предложено сыграть в игру Operation, которая проверяет ловкость пользователя, требуя от него извлечь небольшие объекты из доски через узкие металлические отверстия без прикосновения к краям, что запускает сигнал “неудачи”.

К моменту, когда наступила самая сложная фаза, добровольцу было предложено извлечь все 12 предметов без ошибки в течение одной минуты. Для контекста мировой рекорд по этому заданию, установленный в Великобритании в 2019 году, составляет 12,68 секунды.

Сценарий видеоконференции

Наконец, в тесте домашней работы/видеоконференции добровольцам было предложено вспомнить свои положительные и отрицательные воспоминания по просьбе экспериментатора через звонок MS Teams. Для самой стрессовой фазы этого сценария добровольцу было предложено вспомнить очень негативное или печальное воспоминание из недавнего прошлого.

Различные задачи и сценарии выполнялись в случайном порядке и были собраны в пользовательскую базу данных под названием Working-Environment-Context-Aware Dataset (WECARE-DB).

Метод и обучение

Результаты самооценки настроения испытуемыми использовались в качестве эталонной правды и сопоставлялись с размерностями валентности и возбуждения. Записанные видео экспериментов были обработаны через сеть обнаружения ориентиров лица и выровненные изображения были поданы в сеть ResNet-18, обученную на базе данных AffectNet.

450 000 изображений из AffectNet, все из которых были нарисованы/помечены в Интернете с помощью запросов, связанных с эмоциями, были вручную помечены, как говорится в статье, с размерностями валентности и возбуждения.

Далее исследователи усовершенствовали сеть исключительно на основе своей собственной базы данных WECARE, а кодирование спектральных представлений использовалось для суммирования прогнозов на основе кадров.

Результаты

Производительность модели оценивалась по трем метрикам, обычно связанным с автоматическим прогнозированием эмоций: коэффициент корреляции, коэффициент корреляции Пирсона и среднеквадратическая ошибка (RMSE).

Авторы отмечают, что модель, дообученная на их собственной базе данных WECARE, превзошла ResNet-18, и выводят из этого, что то, как мы управляем нашими выражениями лица, очень отличается в рабочей среде, чем в более абстрактных контекстах, из которых предыдущие исследования получили исходный материал из Интернета.

Они заявляют:

‘Изучая таблицу, мы наблюдаем, что модель, дообученная на WECARE-DB, превзошла модель ResNet-18, предварительно обученную на [AffectNet], что указывает на то, что поведение лица, проявляемое в рабочей среде, отличается от поведения в Интернете, используемого в базе данных AffectNet. Следовательно, необходимо приобретать базы данных и обучать модели для распознавания эмоций лица в рабочей среде.’

Что касается будущего распознавания эмоций на рабочем месте, облегченного сетями камер, обученных на сотрудниках, и постоянно делающих прогнозы их эмоционального состояния, авторы заключили*:

‘Конечной целью является реализация и использование обученных моделей в реальном времени и в реальных условиях работы для предоставления входных данных системам поддержки принятия решений для содействия здоровью и благополучию людей во время их рабочего возраста в контексте проекта рабочего возраста ЕС.’

* Мое подчеркивание.

† Здесь авторы ссылаются на три источника:

Автоматическое, размерное и непрерывное распознавание эмоций – https://ibug.doc.ic.ac.uk/media/uploads/documents/GunesPantic_IJSE_2010_camera.pdf
Изучение области Ambient Assistive Living: систематический обзор – https://link.springer.com/article/10.1007/s12652-016-0374-3
Обзор технологий Интернета вещей для сред Ambient Assistive Living – https://mdpi-res.com/d_attachment/futureinternet/futureinternet-11-00259/article_deploy/futureinternet-11-00259-v2.pdf

†† Здесь авторы ссылаются на два источника:

Обнаружение сонливости водителя в режиме реального времени для встроенной системы с помощью сжатия глубоких нейронных сетей – https://openaccess.thecvf.com/content_cvpr_2017_workshops/w4/papers/Reddy_Real-Time_Driver_Drowsiness_CVPR_2017_paper.pdf
Система обнаружения сонливости водителя в режиме реального времени на основе черт лица – https://www.semanticscholar.org/paper/Real-Time-Driver-Drowsiness-Detection-System-Using-Deng-Wu/1f4b0094c9e70bf7aa287234e0fdb4c764a5c532