Y tế

Nhận biết Căng thẳng của Nhân viên thông qua Phân tích Khuôn mặt tại Nơi làm việc

Published November 24, 2021

Updated April 5, 2026

Martin Anderson

Trong bối cảnh văn hóa thay đổi xung quanh nghi thức họp qua Zoom, và sự xuất hiện của mệt mỏi Zoom, các nhà nghiên cứu từ Cambridge đã phát hành một nghiên cứu sử dụng học máy để xác định mức độ căng thẳng của chúng ta thông qua phân tích khuôn mặt tại nơi làm việc bằng webcam được kích hoạt bởi AI.

Bên trái, môi trường thu thập dữ liệu, với thiết bị giám sát đa dạng được đào tạo hoặc gắn vào một tình nguyện viên; bên phải, ví dụ về các biểu cảm khuôn mặt được tạo bởi các đối tượng thử nghiệm ở các mức độ khó khăn khác nhau. Nguồn: https://arxiv.org/pdf/2111.11862.pdf

Nghiên cứu này được thiết kế cho phân tích ảnh hưởng (tức là nhận dạng cảm xúc) trong các hệ thống ‘Ambient Assistive Living’, và có vẻ như được thiết kế để cho phép các khung giám sát khuôn mặt dựa trên video trong các hệ thống như vậy; mặc dù bài viết không mở rộng về khía cạnh này, nhưng nỗ lực nghiên cứu không có ý nghĩa trong bất kỳ bối cảnh nào khác.

Phạm vi cụ thể của dự án là học các mẫu biểu cảm khuôn mặt trong môi trường làm việc – bao gồm cả sắp xếp làm việc từ xa – chứ không phải ‘giải trí’ hoặc ‘thụ động’, như khi đi du lịch.

Nhận dạng Cảm xúc dựa trên Khuôn mặt tại Nơi làm việc

Trong khi ‘Ambient Assistive Living’ có thể nghe giống như một kế hoạch cho chăm sóc người già, thì đó là điều hoàn toàn khác. Khi nói về ‘người dùng cuối’, các tác giả tuyên bố*:

‘Hệ thống được tạo cho môi trường sống hỗ trợ ambient [†] nhằm thực hiện cả phân tích ảnh hưởng tự động và phản hồi. Môi trường sống hỗ trợ ambient dựa trên việc sử dụng công nghệ thông tin và truyền thông (ICT) để hỗ trợ môi trường sống và làm việc hàng ngày của một người để giữ cho họ khỏe mạnh và hoạt động lâu hơn, và cho phép họ sống độc lập khi già đi. Do đó, môi trường sống hỗ trợ ambient nhằm tạo điều kiện cho công nhân y tế, y tá, bác sĩ, công nhân nhà máy, tài xế, phi công, giáo viên cũng như các ngành công nghiệp khác thông qua cảm biến, đánh giá và can thiệp.

‘Hệ thống được thiết kế để xác định căng thẳng thể chất, cảm xúc và tinh thần và phản hồi và thích nghi khi cần, ví dụ, một chiếc xe được trang bị hệ thống phát hiện buồn ngủ có thể thông báo cho tài xế để chú ý và có thể đề xuất họ nghỉ ngơi một chút để tránh tai nạn [††].’

Bài báo bài viết có tiêu đề Giả định Ảnh hưởng Khuôn mặt Người dùng trong Cài đặt giống như Làm việc, và đến từ ba nhà nghiên cứu tại Phòng thí nghiệm Trí tuệ Cảm xúc và Robotics tại Cambridge.

Điều kiện Kiểm tra

Kể từ khi công việc trước trong lĩnh vực này phụ thuộc chủ yếu vào các bộ sưu tập hình ảnh được thu thập một cách tùy tiện từ internet, các nhà nghiên cứu tại Cambridge đã tiến hành các thí nghiệm thu thập dữ liệu cục bộ với 12 tình nguyện viên tại khuôn viên, 5 nam và 7 nữ. Các tình nguyện viên đến từ chín quốc gia, và được tuổi từ 22-41.

Dự án nhằm tái tạo ba môi trường làm việc có khả năng gây căng thẳng: một văn phòng; một dây chuyền sản xuất nhà máy; và một cuộc gọi hội nghị truyền hình – giống như loại cuộc trò chuyện nhóm Zoom đã trở thành tính năng thường xuyên của làm việc tại nhà kể từ khi đại dịch bắt đầu.

Các đối tượng được theo dõi bằng nhiều phương tiện, bao gồm ba máy ảnh, một micro đeo cổ Jabra, một đồng hồ đeo tay Empatica (một thiết bị đeo không dây đa cảm biến cung cấp phản hồi sinh học thời gian thực), và một bộ cảm biến đầu Muse 2 (cũng cung cấp phản hồi sinh học). Ngoài ra, các tình nguyện viên được yêu cầu hoàn thành các cuộc khảo sát và tự đánh giá tâm trạng của họ định kỳ.

Tuy nhiên, điều này không có nghĩa là các thiết bị Ambient Assistive Living trong tương lai sẽ ‘cắm bạn vào’ như vậy (chỉ vì lý do chi phí); tất cả thiết bị và phương pháp giám sát phi máy ảnh được sử dụng trong thu thập dữ liệu, bao gồm cả đánh giá tự viết, đều được thiết kế để xác thực các hệ thống nhận dạng ảnh hưởng dựa trên khuôn mặt được kích hoạt bởi cảnh quay camera.

Tăng Áp lực: Kịch bản Văn phòng

Trong hai kịch bản đầu tiên (‘Văn phòng’ và ‘Nhà máy’), các tình nguyện viên được bắt đầu với tốc độ dễ, với áp lực tăng dần trong bốn giai đoạn, với các loại nhiệm vụ khác nhau cho mỗi giai đoạn.

Ở mức căng thẳng cao nhất, các tình nguyện viên cũng phải chịu ‘hiệu ứng áo choàng trắng’ của ai đó nhìn over vai họ, cộng với 85db tiếng ồn bổ sung, chỉ năm decibel dưới giới hạn hợp pháp cho môi trường văn phòng ở Mỹ, và chính xác giới hạn tối đa được quy định bởi Viện An toàn và Sức khỏe nghề nghiệp Quốc gia (NIOSH).

Trong giai đoạn thu thập dữ liệu giống như văn phòng, các đối tượng được yêu cầu nhớ các chữ cái trước đó đã nhấp nháy trên màn hình của họ, với mức độ khó khăn tăng dần (như phải nhớ các chuỗi hai chữ cái xảy ra hai màn hình trước).

Kịch bản Nhà máy

Để mô phỏng một môi trường lao động thủ công, các đối tượng được yêu cầu chơi trò Operation, thách thức sự khéo léo của người dùng bằng cách yêu cầu người chơi lấy các vật thể nhỏ ra khỏi bảng thông qua các khe hở kim loại hẹp, không chạm vào các cạnh, sự kiện này kích hoạt một ‘buzzer thất bại’.

Khi giai đoạn khó nhất đến, tình nguyện viên được thách thức phải lấy tất cả 12 vật thể mà không có lỗi trong vòng một phút. Để có bối cảnh, kỷ lục thế giới cho nhiệm vụ này, được thiết lập tại Anh vào năm 2019, đứng ở mức 12,68 giây.

Kịch bản Hội nghị Truyền hình

Cuối cùng, trong thử nghiệm làm việc tại nhà / hội nghị truyền hình, các tình nguyện viên được yêu cầu bởi một người thử nghiệm qua cuộc gọi MS Teams nhớ lại những ký ức tích cực và tiêu cực của họ. Đối với giai đoạn căng thẳng nhất của kịch bản này, tình nguyện viên được yêu cầu nhớ lại một ký ức rất tiêu cực hoặc buồn từ quá khứ gần đây của họ.

Các nhiệm vụ và kịch bản khác nhau được thực hiện theo thứ tự ngẫu nhiên, và được tổng hợp thành một tập dữ liệu tùy chỉnh có tên là Cơ sở dữ liệu Nhận thức về Cài đặt Làm việc (WECARE-DB).

Phương pháp và Đào tạo

Kết quả của việc tự đánh giá tâm trạng của người dùng được sử dụng làm sự thật cơ bản, và được ánh xạ đến các chiều valence và kích thích. Các cảnh quay video của các thí nghiệm được chạy qua một mạng lưới phát hiện điểm mốc khuôn mặt mạng, và các hình ảnh được căn chỉnh cho một mạng ResNet-18 được đào tạo trên tập dữ liệu AffectNet.

450.000 hình ảnh từ AffectNet, tất cả được vẽ / gắn nhãn từ internet bằng các truy vấn liên quan đến cảm xúc, được chú thích thủ công, theo như bài báo.

Tiếp theo, các nhà nghiên cứu tinh chỉnh mạng lưới chỉ dựa trên cơ sở dữ liệu WECARE của riêng họ, trong khi mã hóa biểu diễn phổ được sử dụng để tóm tắt các dự đoán dựa trên khung.

Kết quả

Hiệu suất của mô hình được đánh giá trên ba chỉ số thường liên quan đến dự đoán ảnh hưởng tự động: Hệ số tương quan Concordance; Hệ số tương quan Pearson; và Sai số Trung bình Quadratic (RMSE).

Các tác giả lưu ý rằng mô hình được tinh chỉnh trên cơ sở dữ liệu WECARE của riêng họ đã vượt trội so với ResNet-18, và suy ra từ điều này rằng cách chúng ta kiểm soát các biểu cảm khuôn mặt là rất khác nhau trong môi trường làm việc so với trong các bối cảnh trừu tượng hơn mà các nghiên cứu trước đây đã lấy tài liệu từ internet.

Họ tuyên bố:

‘Khi nhìn vào bảng, chúng tôi quan sát thấy rằng mô hình được tinh chỉnh trên WECARE-DB đã vượt trội so với mô hình ResNet-18 được đào tạo trước trên [AffectNet], cho thấy rằng các hành vi khuôn mặt được hiển thị trong các môi trường giống như làm việc khác với các thiết lập Internet trong thế giới thực được sử dụng trong cơ sở dữ liệu AffectNet. Do đó, cần phải thu được các tập dữ liệu và đào tạo các mô hình để nhận dạng ảnh hưởng khuôn mặt trong các cài đặt giống như làm việc.’

Về tương lai của nhận dạng ảnh hưởng tại nơi làm việc, được kích hoạt bởi mạng lưới camera được đào tạo tại nhân viên và liên tục đưa ra dự đoán về trạng thái cảm xúc của họ, các tác giả kết luận*:

‘Mục tiêu cuối cùng là triển khai và sử dụng các mô hình đã được đào tạo trong thời gian thực và trong các cài đặt làm việc thực để cung cấp đầu vào cho các hệ thống hỗ trợ quyết định để thúc đẩy sức khỏe và phúc lợi của mọi người trong độ tuổi làm việc trong bối cảnh Dự án Độ tuổi Làm việc của EU.’

* Tôi nhấn mạnh.

† Ở đây, các tác giả trích dẫn ba nguồn:

Nhận dạng Cảm xúc Tự động, Chiều và Liên tục – https://ibug.doc.ic.ac.uk/media/uploads/documents/GunesPantic_IJSE_2010_camera.pdf
Khám phá miền sống hỗ trợ ambient – https://link.springer.com/article/10.1007/s12652-016-0374-3
Bản xem xét các môi trường sống hỗ trợ ambient – https://mdpi-res.com/d_attachment/futureinternet/futureinternet-11-00259/article_deploy/futureinternet-11-00259-v2.pdf

†† Ở đây, các tác giả trích dẫn hai nguồn:

Phát hiện Buồn ngủ của Tài xế trong Thời gian Thực cho Hệ thống Nhúng Sử dụng Nén Mô hình của Mạng Nơ-ron Sâu – https://openaccess.thecvf.com/content_cvpr_2017_workshops/w4/papers/Reddy_Real-Time_Driver_Drowsiness_CVPR_2017_paper.pdf
Hệ thống Phát hiện Buồn ngủ của Tài xế trong Thời gian Thực Sử dụng Tính năng Khuôn mặt – https://www.semanticscholar.org/paper/Real-Time-Driver-Drowsiness-Detection-System-Using-Deng-Wu/1f4b0094c9e70bf7aa287234e0fdb4c764a5c532