sơ khai AI giúp những diễn giả thần kinh 'đọc phòng' trong hội nghị truyền hình - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

AI giúp những người nói thần kinh 'đọc phòng' trong hội nghị truyền hình

mm
cập nhật on

Vào năm 2013, một cuộc thăm dò về những nỗi ám ảnh phổ biến đã xác định rằng triển vọng nói trước đám đông là tồi tệ hơn viễn cảnh cái chết cho đa số người được hỏi. Hội chứng được gọi là chứng sợ bóng.

định hướng COVID di cư đáng ngạc nhiên là từ các cuộc họp 'trực tiếp' đến các hội nghị thu phóng trực tuyến trên các nền tảng như Zoom và Google Spaces đều không cải thiện được tình hình. Khi cuộc họp có nhiều người tham gia, khả năng đánh giá mối đe dọa tự nhiên của chúng tôi bị suy giảm do các hàng và biểu tượng người tham gia có độ phân giải thấp cũng như khó đọc các tín hiệu hình ảnh tinh tế của nét mặt và ngôn ngữ cơ thể. Chẳng hạn, Skype được cho là một nền tảng kém trong việc truyền tải các tín hiệu phi ngôn ngữ.

Các tác động đối với hiệu suất nói trước công chúng của sự quan tâm và phản hồi được nhận thức là được ghi chép rõ ràng cho đến bây giờ, và hiển nhiên bằng trực giác đối với hầu hết chúng ta. Phản ứng của khán giả không rõ ràng có thể khiến người nói do dự và quay trở lại bài phát biểu phụ, không biết liệu lập luận của họ có được đồng ý, coi thường hay không quan tâm hay không, thường tạo ra trải nghiệm không thoải mái cho cả người nói và người nghe.

Dưới áp lực từ sự thay đổi bất ngờ sang hội nghị truyền hình trực tuyến lấy cảm hứng từ các biện pháp phòng ngừa và hạn chế của COVID, vấn đề được cho là đang trở nên tồi tệ hơn và một số kế hoạch phản hồi cải thiện của khán giả đã được đề xuất trong thị giác máy tính và ảnh hưởng đến cộng đồng nghiên cứu trong vài năm qua.

Giải pháp tập trung vào phần cứng

Tuy nhiên, hầu hết trong số này liên quan đến thiết bị bổ sung hoặc phần mềm phức tạp có thể gây ra các vấn đề về quyền riêng tư hoặc hậu cần – các kiểu tiếp cận tương đối cao hoặc hạn chế về nguồn lực đã có từ trước đại dịch. Năm 2001, MIT đề xuất máy phát điện, một thiết bị đeo tay có thể suy ra trạng thái cảm xúc của khán giả tham gia, đã được thử nghiệm trong một hội nghị chuyên đề kéo dài cả ngày.

Từ năm 2001, Galvactivator của MIT đã đo phản ứng dẫn điện của da nhằm tìm hiểu cảm xúc và mức độ tương tác của khán giả. Nguồn: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Từ năm 2001, Galvactivator của MIT đã đo phản ứng dẫn điện của da nhằm tìm hiểu cảm xúc và mức độ tương tác của khán giả. Nguồn: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Rất nhiều năng lượng học thuật cũng đã được dành cho khả năng triển khai 'clickers' với tư cách là Hệ thống phản hồi của khán giả (ARS), một biện pháp để tăng cường sự tham gia tích cực của khán giả (tự động tăng mức độ tương tác, vì nó buộc người xem đóng vai trò là nút phản hồi tích cực), nhưng cũng được coi là một phương tiện khuyến khích diễn giả .

Các nỗ lực khác để 'kết nối' diễn giả và khán giả đã bao gồm theo dõi nhịp tim, việc sử dụng các thiết bị đeo trên người phức tạp để tận dụng điện não đồ, 'đồng hồ cổ vũ', dựa trên thị giác máy tính nhận biết cảm xúc cho nhân viên làm việc tại bàn và việc sử dụng khán giả gửi biểu tượng cảm xúc trong bài phát biểu của diễn giả.

Từ năm 2017, EngageMeter, một dự án nghiên cứu học thuật chung giữa LMU Munich và Đại học Stuttgart. Nguồn: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Từ năm 2017, EngageMeter, một dự án nghiên cứu học thuật chung giữa LMU Munich và Đại học Stuttgart. Nguồn: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Là một mục tiêu phụ của lĩnh vực phân tích khán giả sinh lợi, khu vực tư nhân đã đặc biệt quan tâm đến việc ước tính và theo dõi ánh mắt – các hệ thống mà mỗi thành viên khán giả (những người cuối cùng có thể phải phát biểu) phải tuân theo theo dõi mắt như một chỉ số của sự tham gia và phê duyệt.

Tất cả các phương pháp này đều có độ ma sát khá cao. Nhiều người trong số họ yêu cầu phần cứng riêng biệt, môi trường phòng thí nghiệm, khung phần mềm chuyên dụng và tùy chỉnh cũng như đăng ký API thương mại đắt tiền – hoặc bất kỳ sự kết hợp nào của các yếu tố hạn chế này.

Do đó, việc phát triển các hệ thống tối giản dựa trên ít công cụ phổ biến hơn cho hội nghị truyền hình đã trở nên được quan tâm trong 18 tháng qua.

Báo cáo sự chấp thuận của khán giả một cách kín đáo

Để đạt được mục tiêu này, một sự hợp tác nghiên cứu mới giữa Đại học Tokyo và Đại học Carnegie Mellon đã cung cấp một hệ thống mới có thể hỗ trợ các công cụ hội nghị truyền hình tiêu chuẩn (chẳng hạn như Zoom) chỉ bằng cách sử dụng một trang web hỗ trợ web-cam để nhìn và tạo dáng nhẹ nhàng. phần mềm dự toán đang chạy. Bằng cách này, thậm chí tránh được nhu cầu về các plugin trình duyệt cục bộ.

Cái gật đầu của người dùng và sự chú ý bằng mắt ước tính được dịch thành dữ liệu đại diện được hiển thị lại cho người nói, cho phép kiểm tra giấy quỳ 'trực tiếp' về mức độ thu hút khán giả của nội dung – và ít nhất cũng là một chỉ báo mơ hồ về thời gian diễn ngôn mà người nói có thể đang mất đi sự quan tâm của khán giả.

Với CalmResponses, sự chú ý và cái gật đầu của người dùng được thêm vào nhóm phản hồi của khán giả và được chuyển thành phần trình bày trực quan có thể mang lại lợi ích cho người nói. Xem video nhúng ở cuối bài viết để biết thêm chi tiết và ví dụ. Nguồn: https://www.youtube.com/watch?v=J_PhB4FCzk0

Với CalmResponses, sự chú ý và cái gật đầu của người dùng được thêm vào nhóm phản hồi của khán giả và được chuyển thành phần trình bày trực quan có thể mang lại lợi ích cho người nói. Xem video nhúng ở cuối bài viết để biết thêm chi tiết và ví dụ. Nguồn: https://www.youtube.com/watch?v=J_PhB4FCzk0

Trong nhiều tình huống học thuật, chẳng hạn như các bài giảng trực tuyến, người nói có thể hoàn toàn không nhìn thấy sinh viên vì họ không bật máy ảnh vì ý thức về lý lịch hoặc ngoại hình hiện tại của mình. CalmResponses có thể giải quyết trở ngại hóc búa này đối với phản hồi của người nói bằng cách báo cáo những gì nó biết về cách người nói đang xem nội dung và liệu họ có gật đầu hay không mà không cần người xem kích hoạt máy ảnh của họ.

Sản phẩm giấy có tiêu đề CalmResponses: Hiển thị phản ứng của khán giả tập thể trong giao tiếp từ xa, và là công trình hợp tác giữa hai nhà nghiên cứu từ UoT và một từ Carnegie Mellon.

Các tác giả cung cấp bản demo trực tiếp dựa trên web và đã phát hành mã nguồn tại GitHub.

Khung phản hồi bình tĩnh

Việc CalmResponses quan tâm đến việc gật đầu, trái ngược với các khuynh hướng khác có thể có của đầu, dựa trên nghiên cứu (một số nghiên cứu ca ngợi trở lại thời đại của Darwin) chỉ ra rằng hơn 80% chuyển động đầu của tất cả người nghe bao gồm gật đầu (ngay cả khi chúng thể hiện sự không đồng ý). Đồng thời, chuyển động nhìn của mắt đã được thể hiện kết thúc nhiều nghiên cứu để trở thành một chỉ số đáng tin cậy về sự quan tâm hoặc sự tham gia.

CalmResponses được triển khai với HTML, CSS và JavaScript và bao gồm ba hệ thống con: ứng dụng khách khán giả, ứng dụng khách diễn giả và máy chủ. Các khách hàng của khán giả chuyển dữ liệu chuyển động của mắt hoặc đầu từ webcam của người dùng qua WebSockets trên nền tảng ứng dụng đám mây Heroku.

Khán giả gật đầu được hình dung ở bên phải trong một chuyển động sinh động bên dưới CalmResponses. Trong trường hợp này, hình ảnh chuyển động không chỉ dành cho người nói mà còn dành cho toàn bộ khán giả.

Khán giả gật đầu được hình dung ở bên phải trong một chuyển động sinh động bên dưới CalmResponses. Trong trường hợp này, hình ảnh chuyển động không chỉ dành cho người nói mà còn dành cho toàn bộ khán giả. Nguồn: https://arxiv.org/pdf/2204.02308.pdf

Đối với phần theo dõi bằng mắt của dự án, các nhà nghiên cứu đã sử dụng WebGazer, một khung theo dõi ánh mắt dựa trên trình duyệt dựa trên JavaScript, nhẹ, có thể chạy trực tiếp với độ trễ thấp từ một trang web (xem liên kết ở trên để biết cách triển khai dựa trên web của chính các nhà nghiên cứu).

Do nhu cầu triển khai đơn giản và khả năng nhận dạng phản hồi tổng hợp thô lớn hơn nhu cầu về độ chính xác cao trong ước tính ánh mắt và tư thế, nên dữ liệu tư thế đầu vào được làm mịn theo các giá trị trung bình trước khi được xem xét để ước tính phản hồi tổng thể.

Hành động gật đầu được đánh giá thông qua thư viện JavaScript clmtrackr, khớp các mô hình khuôn mặt với các khuôn mặt được phát hiện trong hình ảnh hoặc video thông qua dịch chuyển trung bình mốc chính quy. Vì mục đích tiết kiệm và độ trễ thấp, chỉ mốc được phát hiện cho mũi được theo dõi tích cực trong quá trình thực hiện của các tác giả, vì điều này là đủ để theo dõi các hành động gật đầu.

Chuyển động của vị trí chóp mũi của người dùng tạo ra một vệt góp phần vào nhóm phản ứng của khán giả liên quan đến gật đầu, được hiển thị theo cách tổng hợp cho tất cả những người tham gia.

Chuyển động của vị trí chóp mũi của người dùng tạo ra một vệt góp phần vào nhóm phản ứng của khán giả liên quan đến gật đầu, được hiển thị theo cách tổng hợp cho tất cả những người tham gia.

Bản đồ nhiệt

Mặc dù hoạt động gật đầu được thể hiện bằng các dấu chấm chuyển động động (xem hình ảnh ở trên và video ở cuối), sự chú ý trực quan được báo cáo dưới dạng bản đồ nhiệt hiển thị cho người nói và khán giả nơi tập trung sự chú ý chung vào màn hình thuyết trình được chia sẻ hoặc môi trường hội nghị truyền hình.

Tất cả những người tham gia có thể thấy nơi tập trung sự chú ý của người dùng chung. Bài báo không đề cập đến việc liệu chức năng này có khả dụng hay không khi người dùng có thể xem 'bộ sưu tập' những người tham gia khác, điều này có thể tiết lộ sự tập trung đặc biệt vào một người tham gia cụ thể, vì nhiều lý do.

Tất cả những người tham gia có thể thấy nơi tập trung sự chú ý của người dùng chung. Bài báo không đề cập đến việc liệu chức năng này có khả dụng hay không khi người dùng có thể xem 'bộ sưu tập' những người tham gia khác, điều này có thể tiết lộ sự tập trung đặc biệt vào một người tham gia cụ thể, vì nhiều lý do.

Kiểm tra

Hai môi trường thử nghiệm đã được xây dựng cho CalmResponses dưới hình thức nghiên cứu cắt bỏ ngầm, sử dụng ba nhóm tình huống khác nhau: trong 'Điều kiện B' (đường cơ sở), các tác giả đã sao chép một bài giảng trực tuyến điển hình của sinh viên, trong đó phần lớn sinh viên luôn bật webcam của họ tắt và người nói không có khả năng nhìn thấy khuôn mặt của khán giả; trong 'Điều kiện CR-E', người nói có thể thấy phản hồi về ánh mắt (bản đồ nhiệt); trong 'Điều kiện CR-N', người nói có thể nhìn thấy cả hành động gật đầu và nhìn chằm chằm từ khán giả.

Kịch bản thử nghiệm đầu tiên bao gồm điều kiện B và điều kiện CR-E; điều kiện bao gồm thứ hai B và điều kiện CR-N. Phản hồi đã thu được từ cả diễn giả và khán giả.

Trong mỗi thử nghiệm, ba yếu tố được đánh giá: đánh giá khách quan và chủ quan về bài thuyết trình (bao gồm bảng câu hỏi do người nói tự báo cáo về cảm xúc của họ về cách bài thuyết trình diễn ra); số lượng các sự kiện của bài phát biểu 'lấp đầy', cho thấy sự bất an nhất thời và quanh co; và nhận xét định tính. Các tiêu chí này là chung người ước lượng về chất lượng lời nói và sự lo lắng của người nói.

Nhóm thử nghiệm bao gồm 38 người trong độ tuổi 19-44, bao gồm 29 nam và 24.7 nữ với độ tuổi trung bình là 6, tất cả đều là người Nhật hoặc Trung Quốc và tất cả đều thông thạo tiếng Nhật. Họ được chia ngẫu nhiên thành năm nhóm gồm 7-XNUMX người tham gia và không ai trong số các đối tượng quen biết nhau.

Các thử nghiệm được tiến hành trên Zoom, với năm diễn giả thuyết trình trong thử nghiệm đầu tiên và sáu diễn giả trong thử nghiệm thứ hai.

Điều kiện phụ được đánh dấu là hộp màu cam. Nhìn chung, nội dung bổ sung giảm theo tỷ lệ hợp lý để tăng phản hồi của khán giả từ hệ thống.

Điều kiện phụ được đánh dấu là hộp màu cam. Nhìn chung, nội dung bổ sung giảm theo tỷ lệ hợp lý để tăng phản hồi của khán giả từ hệ thống.

Các nhà nghiên cứu lưu ý rằng các từ lấp đầy của một người nói đã giảm đáng kể và trong 'Điều kiện CR-N', người nói hiếm khi thốt ra các cụm từ lấp đầy. Xem bài báo để biết kết quả rất chi tiết và chi tiết được báo cáo; tuy nhiên, kết quả rõ rệt nhất là ở đánh giá chủ quan từ diễn giả và khán giả tham dự.

Bình luận từ khán giả bao gồm:

'Tôi cảm thấy rằng mình đã tham gia vào các bài thuyết trình' [AN2], 'Tôi không chắc bài phát biểu của diễn giả đã được cải thiện hay chưa, nhưng tôi cảm thấy có sự thống nhất từ ​​hình dung chuyển động đầu của những người khác.' [AN6]

'Tôi không chắc bài phát biểu của các diễn giả đã được cải thiện hay chưa, nhưng tôi cảm nhận được sự thống nhất từ ​​hình dung chuyển động đầu của những người khác.'

Các nhà nghiên cứu lưu ý rằng hệ thống giới thiệu một kiểu tạm dừng nhân tạo mới vào phần trình bày của người nói, vì người nói có xu hướng tham khảo hệ thống hình ảnh để đánh giá phản hồi của khán giả trước khi tiếp tục.

Họ cũng lưu ý một loại "hiệu ứng áo choàng trắng", khó tránh khỏi trong các trường hợp thử nghiệm, trong đó một số người tham gia cảm thấy bị hạn chế bởi các tác động bảo mật có thể xảy ra khi bị theo dõi dữ liệu sinh trắc học.

Kết luận

Một lợi thế đáng chú ý trong một hệ thống như thế này là tất cả các công nghệ phụ trợ phi tiêu chuẩn cần thiết cho cách tiếp cận như vậy sẽ hoàn toàn biến mất sau khi sử dụng xong. Không có plugin trình duyệt còn sót lại nào cần gỡ cài đặt hoặc khiến người tham gia nghi ngờ về việc liệu chúng có nên duy trì trên hệ thống tương ứng của họ hay không; và không cần hướng dẫn người dùng trong quá trình cài đặt (mặc dù khung dựa trên web yêu cầu người dùng hiệu chỉnh ban đầu một hoặc hai phút) hoặc để điều hướng khả năng người dùng không có đủ quyền để cài đặt phần mềm cục bộ, bao gồm các tiện ích bổ sung và tiện ích mở rộng dựa trên trình duyệt.

Mặc dù các chuyển động của khuôn mặt và mắt được đánh giá không chính xác như trong trường hợp có thể sử dụng các khung học máy cục bộ chuyên dụng (chẳng hạn như chuỗi YOLO), cách tiếp cận gần như không có ma sát này để đánh giá khán giả cung cấp độ chính xác đầy đủ cho việc phân tích quan điểm và cảm xúc trên diện rộng. trong các tình huống hội nghị truyền hình điển hình. Trên hết, nó rất rẻ.

Xem video dự án được liên kết bên dưới để biết thêm chi tiết và ví dụ.

CalmResponses: Hiển thị phản ứng của khán giả tập thể trong giao tiếp từ xa

 

Xuất bản lần đầu vào ngày 11 tháng 2022 năm XNUMX.