医疗健康

人工智能姿势估计在健身应用中

Published December 21, 2020

Updated April 28, 2026

Maksym Tatariants

由 Maksym Tatariants，MobiDev 的数据科学工程师。

人体姿势估计是指一种技术——虽然相对较新，但发展迅速——在健身和舞蹈应用中发挥着重要作用，允许我们将数字内容叠加到现实世界中。

简而言之，人体姿势估计的概念是一种基于计算机视觉的技术，能够检测和处理人体姿势。这种技术最重要和核心的部分是人体建模。目前，人体姿势估计系统中最常用的三种身体模型是基于骨骼、轮廓和体积的模型。

基于骨骼的模型

这种模型由一组关节（关键点）组成，例如膝盖、脚踝、手腕、肘部、肩膀和身体肢体的方向。这种模型以其灵活性著称，因此适用于三维和二维的人体姿势估计。对于三维建模，解决方案使用RGB图像并找到关节的X、Y和Z坐标。对于二维建模，它是对RGB图像的相同分析，但使用X和Y坐标。

基于轮廓的模型

这种模型利用身体躯干和肢体的轮廓以及它们的粗略宽度。这里，解决方案获取身体框架的剪影，并将身体部位渲染为该框架内的矩形和边界。

基于体积的模型

这种模型通常使用一系列三维扫描来捕捉身体的形状，并将其转换为形状和几何网格的框架。这些形状创建了一个三维姿势和身体表示的系列。

三维人体姿势估计的工作原理

健身应用通常依赖于三维人体姿势估计。对于这些应用，关于人体姿势的信息越多越好。使用这种技术，应用的用户将记录自己参加锻炼或锻炼例程。然后，应用将分析用户的身体运动，提供错误或不准确的更正。

这种应用的流程图通常遵循以下模式：

首先，收集用户在进行锻炼时的运动数据。
接下来，确定用户的运动是否正确或不正确。
最后，通过界面向用户显示可能存在的错误。

目前，人体姿势技术的标准是 COCO拓扑。COCO拓扑由身体上的17个标志组成，范围从面部到手臂到腿部。注意，COCO并不是唯一的人体姿势框架，只是最常用的一个。

Source: https://mobidev.biz/blog/human-pose-estimation-ai-personal-fitness-coach

这种过程通常使用深度机器学习技术来提取估计用户姿势的关节。然后，它使用基于几何的算法来分析所发现的内容（分析检测到的关节的相对位置）。在使用动态视频作为源数据时，系统可以使用一系列帧，而不仅仅是一个图像，来捕捉其关键点。结果是对用户的实际运动的更准确的渲染，因为系统可以使用相邻帧中的信息来解决当前帧中人体位置的任何不确定性。

在当前用于健身应用的三维姿势估计技术中，最准确的方法是首先应用一个模型来检测二维关键点，然后使用另一个模型将其处理为三维关键点预测。

在我们最近发布的研究中，使用了一个单一的视频源，应用了具有膨胀时间卷积的卷积神经网络来执行二维到三维关键点的转换。

Source: https://mobidev.biz/blog/human-pose-estimation-ai-personal-fitness-coach

分析了当前的模型后，我们确定VideoPose3D是最适合大多数AI驱动的健身应用的解决方案。使用此系统，输入应允许检测二维关键点，其中一个预训练的模型（在COCO 2017数据集上预训练）被应用为二维检测器。

为了最准确地预测当前关节或关键点的位置，VideoPose3D可以使用一段时间内的多个帧来生成二维姿势信息。

为了进一步提高三维姿势估计的准确性，可以使用多个摄像头来收集用户执行相同锻炼或例程的不同视角。注意，这需要更大的处理能力以及专门的模型架构来处理多个视频流输入。

最近，Google 推出了他们的BlazePose系统，这是一个面向移动设备的模型，用于通过增加分析的关键点数量（33个）来估计人体姿势，这是COCO关键点集和其他两个拓扑（BlazePalm和BlazeFace）的超集。因此，BlazePose模型可以通过关节的语义来产生与手模型和面部模型一致的姿势预测结果。