存根 AI 帮助紧张的演讲者在视频会议期间“阅读房间” - Unite.AI
关注我们.

人工智能

人工智能帮助紧张的演讲者在视频会议期间“阅读房间”

mm
更新 on

2013 年,一项针对常见恐惧症的民意调查显示,公众演讲的前景 比死亡的前景更糟糕 对于大多数受访者来说。 该综合征被称为 恐惧症.

新冠疫情驱动 移民 令人惊讶的是,从“面对面”会议到 Zoom 和 Google Spaces 等平台上的在线 Zoom 会议并没有改善这种情况。 当会议包含大量参与者时,我们的自然威胁评估能力会因参与者的低分辨率行和图标以及难以读取面部表情和肢体语言的微妙视觉信号而受到损害。 例如,人们发现 Skype 并不是一个传达非语言线索的糟糕平台。

感知兴趣和反应能力对公开演讲表现的影响是 充分证明 到目前为止,对于我们大多数人来说,直观上是显而易见的。 不透明的观众反应可能会导致演讲者犹豫并退回到 填充演讲,不知道他们的论点是否得到同意、蔑视或不感兴趣,这往往会给演讲者和听众带来不舒服的体验。

在新冠病毒限制和预防措施的启发下,意外转向在线视频会议带来的压力下,问题可以说正在变得更糟,计算机视觉领域提出了许多改进的观众反馈方案,并在过去几年中影响了研究界。

以硬件为中心的解决方案

然而,其中大多数都涉及额外的设备或复杂的软件,可能会引发隐私或后勤问题——在大流行之前就采用了成本相对较高或资源有限的方法风格。 2001年,麻省理工学院提出 电流激活剂,一种手持设备,可以推断观众参与者的情绪状态,在为期一天的研讨会上进行了测试。

从 2001 年开始,麻省理工学院的 Galvactivator 测量皮肤电导率反应,试图了解观众的情绪和参与度。 资料来源:https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

从 2001 年开始,麻省理工学院的 Galvactivator 测量皮肤电导率反应,试图了解观众的情绪和参与度。 资料来源:https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

学术界也投入了大量的精力来研究可能的 部署“答题器” 作为观众响应系统(ARS),一种增加观众积极参与的措施(自动增加参与度,因为它迫使观众扮演主动反馈节点的角色),但也被设想为鼓励演讲者的一种手段。

“连接”演讲者和观众的其他尝试包括 心率监测,使用复杂的穿戴式设备来利用脑电图, “欢呼米”, 基于计算机视觉 情绪识别 对于坐在办公桌前的工作人员,以及使用观众发送的 表情 在演讲者演讲期间。

自 2017 年起,慕尼黑大学和斯图加特大学联合开展学术研究项目 EngageMeter。 资料来源:http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

自 2017 年起,慕尼黑大学和斯图加特大学联合开展学术研究项目 EngageMeter。 资料来源:http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

作为对受众分析这一利润丰厚领域的子追求,私营部门对注视估计和跟踪系统特别感兴趣,在该系统中,每个受众成员(最终可能轮流发言)都受到 目视追踪 作为参与度和认可度的指标。

所有这些方法都具有相当高的摩擦力。 其中许多需要定制硬件、实验室环境、专门定制的软件框架以及昂贵的商业 API 订阅,或者这些限制因素的任意组合。

因此,在过去 18 个月里,基于视频会议常用工具的极简系统的开发引起了人们的兴趣。

谨慎报道观众认可度

为此,东京大学和卡内基梅隆大学之间的一项新研究合作提供了一种新颖的系统,该系统可以搭载标准视频会议工具(例如 Zoom),仅使用支持网络摄像头的网站,在该网站上进行轻量的凝视和姿势估算软件正在运行。 通过这种方式,甚至可以避免对本地浏览器插件的需要。

用户的点头和估计的眼睛注意力被转化为代表性数据,并可视化返回给演讲者,从而可以对内容吸引观众的程度进行“实时”试金石,并且至少还可以提供一个模糊的周期指标演讲者可能会失去听众兴趣的演讲。

通过 CalmResponses,用户的注意力和点头会被添加到观众反馈池中,并转化为对演讲者有利的视觉表示。 有关更多详细信息和示例,请参阅文章末尾的嵌入式视频。 来源:https://www.youtube.com/watch?v=J_PhB4FCzk0

通过 CalmResponses,用户的注意力和点头会被添加到观众反馈池中,并转化为对演讲者有利的视觉表示。 有关更多详细信息和示例,请参阅文章末尾的嵌入式视频。 来源:https://www.youtube.com/watch?v=J_PhB4FCzk0

在许多学术场合,例如在线讲座,演讲者可能完全看不到学生,因为他们由于对自己的背景或当前外表的自我意识而没有打开相机。 CalmResponses 可以报告演讲者如何看待内容以及他们是否点头,从而解决演讲者反馈的这一棘手障碍,而无需观看者激活他们的摄像头。

标题为 CalmResponses:在远程通信中显示集体观众反应,是来自多伦多大学的两名研究人员和卡内基梅隆大学的一名研究人员的联合工作。

作者提供了一个基于网络的实时演示,并发布了 源代码位于 GitHub.

CalmResponses 框架

CalmResponses 对点头的兴趣,而不是其他可能的头部倾向,是基于研究(其中一些是欢呼的) 回到达尔文时代)这表明超过 80% 的听众的头部运动 由点头组成 (即使他们是 表达不同意见)。 同时,眼球的注视运动也被表现出来 超过 众多 研究 成为可靠的兴趣或参与指数。

CalmResponses 使用 HTML、CSS 和 JavaScript 实现,包含三个子系统:观众客户端、演讲者客户端和服务器。 观众客户端通过云应用平台 Heroku 上的 WebSockets 传递来自用户网络摄像头的眼球注视或头部运动数据。

右边的观众在 CalmResponses 下以动画动作点头。 在这种情况下,运动可视化不仅可供演讲者使用,而且可供所有观众使用。

右边的观众在 CalmResponses 下以动画动作点头。 在这种情况下,运动可视化不仅可供演讲者使用,而且可供所有观众使用。 资料来源:https://arxiv.org/pdf/2204.02308.pdf

对于该项目的眼球追踪部分,研究人员使用 网络观察者,一个轻量级、基于 JavaScript 的浏览器眼动追踪框架,可以直接从网站以低延迟运行(有关研究人员自己的基于网络的实现,请参阅上面的链接)。

由于对简单实现和粗略聚合响应识别的需求超过了对凝视和姿势估计的高精度的需求,因此在考虑整体响应估计之前,根据平均值对输入姿势数据进行平滑处理。

点头动作通过 JavaScript 库进行评估 跟踪器,它将面部模型与图像或视频中检测到的面部进行拟合 正则化地标均值漂移。 出于经济和低延迟的目的,在作者的实现中仅主动监视检测到的鼻子标志,因为这足以跟踪点头动作。

用户鼻尖位置的移动会产生一条轨迹,该轨迹有助于与点头相关的观众反应池,并以聚合方式向所有参与者可视化。

用户鼻尖位置的移动会产生一条轨迹,该轨迹有助于与点头相关的观众反应池,并以聚合方式向所有参与者可视化。

热图

虽然点头活动由动态移动点表示(请参见上面的图像和最后的视频),但视觉注意力是以热图的形式报告的,该热图向演讲者和观众显示一般注意力集中在共享演示屏幕或视频会议环境。

所有参与者都可以看到一般用户的注意力集中在哪里。 该论文没有提及当用户可以看到其他参与者的“图库”时此功能是否可用,这可能会由于各种原因而暴露出对某个特定参与者的似是而非的关注。

所有参与者都可以看到一般用户的注意力集中在哪里。 该论文没有提及当用户可以看到其他参与者的“图库”时此功能是否可用,这可能会由于各种原因而暴露出对某个特定参与者的似是而非的关注。

检测

使用三组不同的情况,以默契消融研究的形式为 CalmResponses 制定了两个测试环境:在“条件 B”(基线)中,作者复制了典型的在线学生讲座,其中大多数学生保持网络摄像头转动关闭,演讲者看不到观众的面孔; 在“条件 CR-E”中,说话者可以看到目光反馈(热图); 在“Condition CR-N”中,演讲者可以看到观众的点头和凝视活动。

第一个实验场景包括条件B和条件CR-E; 第二个包括条件B和条件CR-N。 演讲者和观众都得到了反馈。

在每个实验中,评估了三个因素:对演讲的客观和主观评价(包括演讲者对演讲进行情况的自我报告问卷); “填充”言论的事件数量,表明暂时的不安全感和搪塞; 和定性评论。 这些标准是 常见 估计器 语音质量和说话者焦虑。

测试对象由38名年龄在19-44岁之间的人组成,其中男性29名,女性24.7名,平均年龄6岁,均为日本人或中国人,日语均流利。 他们被随机分为五组,每组 7-XNUMX 名参与者,并且所有受试者都不认识彼此。

测试在 Zoom 上进行,第一个实验中有五位演讲者进行演示,第二个实验中有六位演讲者进行演示。

填充条件标记为橙色框。 一般来说,填充内容随着系统观众反馈的增加而按合理比例下降。

填充条件标记为橙色框。 一般来说,填充内容随着系统观众反馈的增加而按合理比例下降。

研究人员指出,一位说话者的填充短语显着减少,并且在“条件 CR-N”中,说话者很少说出填充短语。 请参阅论文,了解报告的非常详细和细致的结果; 然而,最显着的结果是演讲者和听众的主观评价。

观众的评论包括:

“我觉得我参与了演讲”[AN2],“我不确定演讲者的演讲是否有所改善,但我从其他人的头部运动可视化中感受到了一种团结感。” [AN6]

“我不确定演讲者的演讲是否有所改善,但我从其他人的头部运动可视化中感受到了一种团结感。”

研究人员指出,该系统在演讲者的演讲中引入了一种新型的人为停顿,因为演讲者在继续进行下一步之前倾向于参考视觉系统来评估观众的反馈。

他们还注意到一种“白大衣效应”,在实验环境中很难避免,一些参与者感到受到生物识别数据监控可能带来的安全影响的限制。

结论

像这样的系统的一个显着优点是这种方法所需的所有非标准辅助技术在使用结束后完全消失。 没有残留的浏览器插件需要卸载,或者让参与者怀疑是否应该保留在各自的系统上; 并且不需要引导用户完成安装过程(尽管基于网络的框架确实需要用户进行一两分钟的初始校准),或者引导用户没有足够的权限来安装本地软件的可能性,包括基于浏览器的附加组件和扩展。

尽管评估的面部和眼部运动不如可能使用专用本地机器学习框架(例如 YOLO 系列)的情况那么精确,但这种几乎无摩擦的受众评估方法为广泛的情绪和立场分析提供了足够的准确性在典型的视频会议场景中。最重要的是,它非常便宜。

请查看下面的相关项目视频,了解更多详细信息和示例。

CalmResponses:在远程通信中显示集体观众反应

 

首次发布于 11 年 2022 月 XNUMX 日。