Anderson 视角

在工作场所通过面部分析识别员工压力

发布于 2021年11月24日

更新于 2026年5月24日

作者

Martin Anderson

在Zoom会议礼仪不断演变以及Zoom疲劳的出现背景下，剑桥大学的研究人员发布了一项研究，利用机器学习通过AI启用的网络摄像头覆盖来确定我们在工作中的压力水平。

左边是数据采集环境，带有多个监测设备；右边是测试对象在不同任务难度下的面部表情示例。 来源：https://arxiv.org/pdf/2111.11862.pdf

该研究旨在进行情感分析（即情绪识别）在“环境辅助生活”系统中，并可能被用于视频辅助AI面部表情监测框架；虽然该论文没有详细阐述这一点，但该研究工作在其他背景下没有意义。

该项目的具体范围是学习面部表情模式 在工作环境中 – 包括远程工作安排 – 而不是“休闲”或“被动”情况，如旅行。

工作场所中的面部情绪识别

虽然“环境辅助生活”可能听起来像是一种老年护理计划，但事实并非如此。关于预期的“终端用户”，作者表示*：

‘环境辅助生活环境中的系统 [†] 旨在能够执行自动情感分析和响应。环境辅助生活依赖于信息和通信技术（ICT）的使用，以帮助个人的日常生活和工作环境，使他们能够保持健康和活跃更长时间，并能够独立生活，当他们年龄增长时。因此， 环境辅助生活旨在促进健康工作者、护士、医生、工厂工人、司机、飞行员、教师以及通过感知、评估和干预来促进各个行业的发展。

‘该系统旨在确定身体、情感和精神紧张，并在需要时响应和适应，例如，一辆配备有瞌睡检测系统的汽车可以提醒司机注意并建议他们休息一下，以避免事故 [††]。

该论文的标题为 在工作环境中推断用户面部情绪，来自剑桥大学情感智能与机器人实验室的三位研究人员。

测试条件

由于以前的工作在很大程度上依赖于从互联网上收集的图像，剑桥研究人员与 12 名校园志愿者（5 名男性，7 名女性）进行了本地数据采集实验。这些志愿者来自 9 个国家，年龄在 22-41 岁之间。

该项目旨在重现三个可能带来压力的工作环境：办公室；工厂生产线；以及远程会议电话 – 就像自疫情爆发以来成为家庭办公的常见特征的Zoom群聊一样。

受试者通过各种方式进行监测，包括三台摄像机，一款Jabra颈戴式麦克风，一款 Empatica腕带（一款无线多传感器可穿戴设备，提供实时生物反馈），以及一款Muse 2头戴式传感器（同样提供生物反馈）。此外，志愿者被要求完成调查并定期自我评估他们的情绪。

然而，这并不意味着未来的环境辅助生活系统将以这种方式“插入”（如果仅仅是出于成本考虑的话）；在数据采集过程中使用的所有非摄像机监测设备和方法，包括书面自我评估，旨在验证由摄像机录像启用的面部情绪识别系统。

提高压力：办公室场景

在前两个场景（“办公室”和“工厂”）中，志愿者最初以轻松的节奏开始，压力逐渐在四个阶段中增加，每个阶段都有不同的任务。

在最高的诱导压力水平下，志愿者还必须忍受“白大褂效应”（有人在他们身后看着他们），以及 85 分贝的额外噪音，这刚好是美国办公环境的法定噪音限值下五分贝，也是国家职业安全与健康研究所（NIOSH）规定的最高限值。

在类似办公室的数据采集阶段，受试者被要求记住之前在屏幕上闪现的字母，难度逐渐增加（例如，记住两个字母的序列，它们出现在两屏之前）。

工厂场景

为了模拟手工劳动环境，受试者被要求玩“手术”游戏，该游戏通过要求玩家从带有金属边缘的板上提取小物体而挑战用户的灵活性，如果触摸到边缘，就会触发“失败”蜂鸣器。

当最艰难的阶段到来时，志愿者被要求在一分钟内无误地提取所有 12 个物体。为了更好地理解这一点，2019 年在英国创下的这一任务的世界纪录是 12.68 秒。

远程会议场景

最后，在家庭办公/远程会议测试中，志愿者被要求通过MS Teams呼叫回忆他们自己的积极和消极记忆。在此场景的最具压力的阶段，志愿者被要求回忆他们最近过去的非常消极或悲伤的记忆。

各种任务和场景以随机顺序执行，并编译成一个定制的数据集，名为工作环境上下文感知数据集（WECARE-DB）。

方法和训练

使用用户自我评估的情绪作为基准，并将其映射到正性和唤醒维度。实验的视频录像通过面部特征检测网络，并将对齐的图像输入到在 AffectNet 数据集上训练的 ResNet-18 网络中。

从互联网上使用情绪相关查询收集的AffectNet中的45万张图像都被手动注释了，论文称，并具有正性和唤醒维度。

接下来，研究人员仅使用自己的WECARE数据集对网络进行了改进，同时使用光谱表示编码来总结基于帧的预测。

结果

模型的性能使用三个常与自动情绪预测相关的指标进行了评估：一致性系数相关性；皮尔森系数相关性；以及均方根误差（RMSE）。

作者指出，在他们自己的WECARE数据集上微调的模型优于ResNet-18，并推断出这一点表明，在工作环境中，我们的面部表情与以前从互联网上获取的抽象上下文中的面部表情有很大不同。

他们指出：

‘查看表格，我们观察到在WECARE-DB上微调的模型优于在[AffectNet]上预训练的ResNet-18模型，表明工作环境中的面部行为与在AffectNet DB中使用的互联网环境中的面部行为不同。因此，需要获取数据集并训练模型以识别工作环境中的面部情绪。’

关于工作中情绪识别的未来，通过网络摄像头对员工进行训练，并不断预测他们的情绪状态，作者得出结论*：

‘最终目标是实现并在实际工作环境中实时使用训练好的模型，为决策支持系统提供输入，以促进人们在工作年龄期间的健康和福祉，在欧盟工作年龄项目的背景下。’

* 我的强调。

† 作者在此处引用了三个来源：

自动、维度和连续的情绪识别 – https://ibug.doc.ic.ac.uk/media/uploads/documents/GunesPantic_IJSE_2010_camera.pdf
探索环境辅助生活领域：系统性综述 – https://link.springer.com/article/10.1007/s12652-016-0374-3
环境辅助生活环境中的物联网技术综述 – https://mdpi-res.com/d_attachment/futureinternet/futureinternet-11-00259/article_deploy/futureinternet-11-00259-v2.pdf

†† 作者在此处引用了两个来源：

使用深度神经网络模型压缩的实时驾驶员瞌睡检测系统 – https://openaccess.thecvf.com/content_cvpr_2017_workshops/w4/papers/Reddy_Real-Time_Driver_Drowsiness_CVPR_2017_paper.pdf
使用面部特征的实时驾驶员瞌睡检测系统 – https://www.semanticscholar.org/paper/Real-Time-Driver-Drowsiness-Detection-System-Using-Deng-Wu/1f4b0094c9e70bf7aa287234e0fdb4c764a5c532