Connect with us

医疗健康

人工智能姿势估计在健身应用中

mm

由 Maksym Tatariants,MobiDev 的数据科学工程师。

人体姿势估计是指一种技术——虽然相对较新,但发展迅速——在健身和舞蹈应用中发挥着重要作用,允许我们将数字内容叠加到现实世界中。

简而言之,人体姿势估计的概念是一种基于计算机视觉的技术,能够检测和处理人体姿势。这种技术最重要和核心的部分是人体建模。目前,人体姿势估计系统中最常用的三种身体模型是基于骨骼、轮廓和体积的模型。

基于骨骼的模型

这种模型由一组关节(关键点)组成,例如膝盖、脚踝、手腕、肘部、肩膀和身体肢体的方向。这种模型以其灵活性著称,因此适用于三维和二维的人体姿势估计。对于三维建模,解决方案使用RGB图像并找到关节的X、Y和Z坐标。对于二维建模,它是对RGB图像的相同分析,但使用X和Y坐标。

基于轮廓的模型

这种模型利用身体躯干和肢体的轮廓以及它们的粗略宽度。这里,解决方案获取身体框架的剪影,并将身体部位渲染为该框架内的矩形和边界。

基于体积的模型

这种模型通常使用一系列三维扫描来捕捉身体的形状,并将其转换为形状和几何网格的框架。这些形状创建了一个三维姿势和身体表示的系列。

三维人体姿势估计的工作原理

健身应用通常依赖于三维人体姿势估计。对于这些应用,关于人体姿势的信息越多越好。使用这种技术,应用的用户将记录自己参加锻炼或锻炼例程。然后,应用将分析用户的身体运动,提供错误或不准确的更正。

这种应用的流程图通常遵循以下模式:

  • 首先,收集用户在进行锻炼时的运动数据。
  • 接下来,确定用户的运动是否正确或不正确。
  • 最后,通过界面向用户显示可能存在的错误。

目前,人体姿势技术的标准是 COCO拓扑。COCO拓扑由身体上的17个标志组成,范围从面部到手臂到腿部。注意,COCO并不是唯一的人体姿势框架,只是最常用的一个。

这种过程通常使用深度机器学习技术来提取估计用户姿势的关节。然后,它使用基于几何的算法来分析所发现的内容(分析检测到的关节的相对位置)。在使用动态视频作为源数据时,系统可以使用一系列帧,而不仅仅是一个图像,来捕捉其关键点。结果是对用户的实际运动的更准确的渲染,因为系统可以使用相邻帧中的信息来解决当前帧中人体位置的任何不确定性。

在当前用于健身应用的三维姿势估计技术中,最准确的方法是首先应用一个模型来检测二维关键点,然后使用另一个模型将其处理为三维关键点预测。

在我们最近发布的 研究中,使用了一个单一的视频源,应用了具有膨胀时间卷积的卷积神经网络来执行二维到三维关键点的转换。

分析了当前的模型后,我们确定VideoPose3D是最适合大多数AI驱动的健身应用的解决方案。使用此系统,输入应允许检测二维关键点,其中一个预训练的模型(在COCO 2017数据集上预训练)被应用为 二维检测器。

为了最准确地预测当前关节或关键点的位置,VideoPose3D可以使用一段时间内的多个帧来生成二维姿势信息。

为了进一步提高三维姿势估计的准确性,可以使用多个摄像头来收集用户执行相同锻炼或例程的不同视角。注意,这需要更大的处理能力以及专门的模型架构来处理多个视频流输入。

最近,Google 推出了他们的BlazePose系统,这是一个面向移动设备的模型,用于通过增加分析的关键点数量(33个)来估计人体姿势,这是COCO关键点集和其他两个拓扑(BlazePalm和BlazeFace)的超集。因此,BlazePose模型可以通过关节的语义来产生与手模型和面部模型一致的姿势预测结果。

每个机器学习基于的人体姿势估计系统的组件都需要快速,pose检测和跟踪模型每帧最多需要几毫秒。

由于BlazePose管道(包括姿势估计和跟踪组件)需要在各种移动设备上实时运行,因此管道的每个部分都被设计为非常计算高效,运行速度可达200-1000 FPS。

在视频中,人体姿势估计和跟踪通常分为两个阶段。

在第一阶段,运行对象检测模型来定位人体或确定其不存在。人体被检测到后,姿势估计模块可以处理包含人体的局部区域并预测关键点的位置。

这种设置的一个缺点是它需要对象检测和姿势估计模块为每个帧运行,这会消耗额外的计算资源。然而,BlazePose的作者想出了一个巧妙的方法来解决这个问题,并在其他关键点检测模块(如 FaceMeshMediaPipe Hand)中高效地利用它。

这个想法是,对象检测模块(在BlazePose的情况下为面部检测器)可以仅用于启动第一帧的姿势跟踪,而后续的跟踪可以使用姿势预测来完成,预测的参数使用姿势估计模型来预测。

面部产生了对躯干位置的最强信号,因为其外观的相对小的方差和高对比度的特征。因此,通过一系列合理的假设,假设人体头部在每个个人使用案例中都是可定位的,可以创建一个快速、低开销的姿势检测系统。

克服人体姿势估计的挑战

在健身应用中使用姿势估计面临着人体姿势范围的挑战,例如大多数瑜伽常规中的数百个姿势。

此外,身体有时会阻挡某些肢体,如任何给定摄像头所捕捉的那样,用户可能会穿着不同的服装来遮挡身体特征和个人外貌。

在使用任何预训练模型时,注意到不寻常的身体运动或奇怪的摄像头角度可能会导致 人体姿势估计错误。我们可以通过使用来自三维人体模型渲染的合成数据或使用特定于所讨论领域的数据进行微调来一定程度上缓解这个问题。

好消息是,我们可以避免或减轻大多数弱点。做到这一点的关键是选择合适的训练数据和模型架构。另外,人体姿势估计技术的发展趋势表明,我们目前面临的一些问题在未来几年将变得不那么相关。

最后的话

人体姿势估计在健身应用和跟踪人体运动之外具有多种潜在的未来用途,从游戏到动画到增强现实到机器人。这并不是一个完整的列表,但它强调了一些人体姿势估计将为我们的数字化景观做出贡献的最可能领域。

Maksym 热衷于在数据科学和机器学习领域获得新的见解和经验。他特别感兴趣于基于深度学习的技术及其在商业用例中的应用。