存根 健身应用中的 AI 姿势估计 - Unite.AI
关注我们.

健康防护

健身应用中的AI姿势估计

mm

发布时间

 on

作者:Maksym Tatariants,数据科学工程师 莫比德夫.

人体姿势估计是一项相当新但发展迅速的技术,它在健身和舞蹈应用中发挥着重要作用,使我们能够将数字内容放置在现实世界中。

简而言之,人体姿势估计的概念是一种基于计算机视觉的能够检测和处理人体姿势的技术。这项技术最重要、最核心的部分是人体建模。当前人体姿势估计系统中最突出的是三种身体模型——基于骨架、基于轮廓和基于体积。

基于骨架的模型

该模型由一组关节(关键点)组成,例如膝盖、脚踝、手腕、肘部、肩膀以及身体四肢的方向。 该模型以其灵活性而著称,因此适用于 3 维和 2 维人体姿态估计。 通过 3 维建模,该解决方案使用 RGB 图像并查找关节的 X、Y 和 Z 坐标。 对于二维建模,它与 RGB 图像的分析相同,但使用 X 和 Y 坐标。

基于轮廓的模型

该模型利用了躯干和四肢的轮廓及其粗略宽度。 在这里,该解决方案采用身体框架的轮廓,并将身体部位渲染为该框架内的矩形和边界。

基于体积的模型

该模型通常使用一系列 3 维扫描来捕获身体的形状,并将其转换为形状和几何网格的框架。 这些形状创建了一系列 3D 姿势和身体表征。

3D 人体姿势估计的工作原理

健身应用往往依赖于 3 维人体姿势估计。 对于这些应用程序,有关人体姿势的信息越多越好。 通过这种技术,应用程序的用户将记录自己参与锻炼或锻炼的情况。 然后,该应用程序将分析用户的身体动作,提供错误或不准确的纠正。

此类应用程序的流程图通常遵循以下模式:

  • 首先,收集用户进行锻炼时的动作数据。
  • 接下来,确定用户的动作是否正确。
  • 最后,通过界面向用户展示他们可能犯了哪些错误。

目前,人体姿势技术的标准是 COCO拓扑。 COCO 拓扑由全身 17 个标志点组成,从脸部到手臂再到腿部。 请注意,COCO 并不是唯一的人体姿势框架,而只是最常用的一个。

此类过程通常利用深度机器学习技术来提取关节来估计用户的姿势。然后,它采用基于几何的算法来理解所发现的内容(分析检测到的关节的相对位置)。当使用动态视频作为源数据时,系统可以使用一系列帧(而不仅仅是单个图像)来捕获其关键点。结果是更准确地呈现用户的真实动作,因为系统可以使用来自相邻帧的信息来解决有关当前帧中人体位置的任何不确定性。

在健身应用中使用 3D 姿态估计的当前技术中,最准确的方法是首先应用模型来检测 2D 关键点,然后使用另一个模型处理 2D 检测,将其转换为 3D 关键点预测。 

研究 我们最近发布的文章使用了单个视频源,并使用具有扩张时间卷积的卷积神经网络来执行 2D -> 3D 关键点转换。

在分析当前的模型后,我们确定 VideoPose3D 是最适合大多数人工智能驱动的健身应用程序需求的解决方案。 使用该系统的输入应允许检测一组 2D 关键点, 其中在 COCO 2017 数据集上预训练的模型被用作 二维探测器。 

为了最精确地预测当前关节或关键点的位置,VideoPose3D 可以在短时间内使用多个帧来生成 2D 姿势信息。 

为了进一步提高 3D 姿势估计的准确性,多个摄像头可以收集用户执行相同锻炼或例行活动的替代视点。 但请注意,它需要更强的处理能力以及专门的模型架构来处理多个视频流输入。

最近,谷歌 亮相 他们的 BlazePose 系统是一种面向移动设备的模型,用于通过将分析的关键点数量增加到 33 个来估计人体姿势,这是 COCO 关键点集和其他两个拓扑(BlazePalm 和 BlazeFace)的超集。 因此,BlazePose模型可以通过阐明身体语义来产生与手模型和人脸模型一致的姿势预测结果。

基于机器学习的人体姿势估计系统中的每个组件都需要快速,每帧最多需要几毫秒的时间来进行姿势检测和跟踪模型。 

由于 BlazePose 管道(包括姿态估计和跟踪组件)必须在各种移动设备上实时运行,因此管道的每个单独部分都设计得非常计算高效,并以 200-1000 FPS 运行。

在不知道人是否存在以及在哪里的情况下,视频中的姿势估计和跟踪通常分两个阶段完成。 

在第一阶段,运行对象检测模型来定位人类的存在或识别其不存在。 检测到人后,姿态估计模块可以处理包含人的局部区域并预测关键点的位置。

这种设置的缺点是它需要为每一帧运行对象检测和姿态估计模块,这会消耗额外的计算资源。 然而,BlazePose 的作者设计了一种巧妙的方法来解决这个问题,并在其他关键点检测模块中有效地利用它,例如 面网媒体管道手.

这个想法是,对象检测模块(BlazePose 中的面部检测器)只能用于启动第一帧中的姿势跟踪,而后续的人物跟踪可以在进行一些姿势对齐后仅使用姿势预测来完成,使用姿态估计模型预测的参数。

由于外观变化相对较小且特征对比度较高,面部对于神经网络的躯干位置产生最强的信号。 因此,可以通过一系列合理的假设来创建一个快速、低开销的姿势检测系统,这些假设基于人类头部在每个个人用例中都可以定位的想法。

克服人体姿势估计的挑战

在健身应用程序中使用姿势估计面临着人类姿势范围巨大的挑战,例如,大多数瑜伽疗法中的数百个体式。 

此外,身体有时会遮挡任何给定相机拍摄的某些肢体,用户可能会穿着不同的服装,从而掩盖身体特征和个人外观。

在使用任何预先训练的模型时,请注意不寻常的身体动作或奇怪的摄像机角度可能会导致 人体姿势估计错误。我们可以通过使用 3D 人体模型渲染的合成数据,或者通过针对相关领域的特定数据进行微调,在一定程度上缓解这个问题。

好消息是我们可以避免或减轻大多数弱点。 这样做的关键是选择正确的训练数据和模型架构。 此外,人体姿势估计技术领域的发展趋势表明,我们现在面临的一些问题在未来几年将不再那么重要。

最后的话

人体姿势估计在健身应用程序和跟踪人体运动领域之外具有多种潜在的未来用途,从游戏到动画,从增强现实到机器人。 这并不代表可能性的完整列表,但确实强调了人体姿势估计将有助于我们的数字景观的一些最有可能的领域。

Maksym 热衷于获得数据科学和机器学习方面的新见解和经验。 他对基于深度学习的技术及其在业务用例中的应用特别感兴趣。