taló Estimació de la postura de l'IA a l'aplicació de fitness - Unite.AI
Connecteu-vos amb nosaltres

Salut

Estimació de la postura de l'IA a l'aplicació de fitness

mm

publicat

 on

A càrrec de Maksym Tatariants, enginyer de ciència de dades de MobiDev.

L'estimació de la postura humana es refereix a una tecnologia, bastant nova, però que evoluciona ràpidament, que juga un paper important en les aplicacions de fitness i dansa, permetent-nos situar contingut digital al món real.

En resum, el concepte d'estimació de la postura humana és una tecnologia basada en visió per ordinador capaç de detectar i processar la postura humana. La part més important i central d'aquesta tecnologia és el modelatge del cos humà. Tres models corporals són els més destacats dins dels sistemes actuals d'estimació de la postura humana: basats en esquelets, basats en contorns i basats en volum.

Model basat en l'esquelet

Aquest model està format per un conjunt d'articulacions (punts clau), com els genolls, els turmells, els canells, els colzes, les espatlles i l'orientació de les extremitats del cos. Aquest model destaca per la seva flexibilitat i, com a tal, és adequat per a l'estimació de la postura humana tant en 3 com en 2 dimensions. Amb el modelatge tridimensional, la solució utilitza una imatge RGB i troba les coordenades X, Y i Z de les articulacions. Amb el modelatge bidimensional, és la mateixa anàlisi d'una imatge RGB, però utilitzant les coordenades X i Y.

Model basat en contorns

Aquest model fa servir els contorns del tors i les extremitats del cos, així com la seva amplada rugosa. Aquí, la solució pren la silueta del marc del cos i representa les parts del cos com a rectangles i límits dins d'aquest marc.

Model basat en volum

Aquest model generalment utilitza una sèrie d'exploracions tridimensionals per capturar la forma del cos i la converteix en un marc de formes i malles geomètriques. Aquestes formes creen una sèrie 3D de posicions i representacions corporals.

Com funciona l'estimació de la posició humana en 3D

Les aplicacions de fitness solen dependre de l'estimació de la postura humana tridimensional. Per a aquestes aplicacions, com més informació sobre la postura humana, millor. Amb aquesta tècnica, l'usuari de l'aplicació es gravarà participant en un exercici o rutina d'entrenament. A continuació, l'aplicació analitzarà els moviments corporals de l'usuari, oferint correccions per errors o inexactituds.

El diagrama de flux d'aquest tipus d'aplicació normalment segueix aquest patró:

  • En primer lloc, recopilar dades sobre els moviments de l'usuari mentre realitza l'exercici.
  • A continuació, determineu com de correctes o incorrectes eren els moviments de l'usuari.
  • Finalment, mostra a l'usuari a través de la interfície quins errors ha pogut cometre.

Ara mateix, l'estàndard en tecnologia de poses humanes és Topologia COCO. La topologia COCO es compon de 17 punts de referència a tot el cos, que van des de la cara fins als braços i les cames. Tingueu en compte que COCO no és l'únic marc de poses del cos humà, només el més utilitzat.

Aquest tipus de procés normalment fa servir la tecnologia d'aprenentatge automàtic profund per a l'extracció d'articulacions per estimar la postura de l'usuari. A continuació, utilitza algorismes basats en geometria per donar sentit al que es troba (analitzar les posicions relatives de les articulacions detectades). Mentre utilitza un vídeo dinàmic com a dades d'origen, el sistema pot utilitzar una sèrie de fotogrames, no només una imatge, per capturar els seus punts clau. El resultat és una representació molt més precisa dels moviments reals de l'usuari, ja que el sistema pot utilitzar la informació dels fotogrames adjacents per resoldre qualsevol incertesa sobre la posició del cos humà en el marc actual.

De les tècniques actuals per utilitzar l'estimació de la postura 3D en aplicacions de fitness, l'enfocament més precís és aplicar primer un model per detectar punts clau 2D i, posteriorment, processar la detecció 2D amb un altre model per convertir-los en prediccions de punts clau en 3D. 

A la investigació que vam publicar recentment, es va utilitzar una única font de vídeo, amb xarxes neuronals convolucionals amb circumvolucions temporals dilatades aplicades per realitzar la conversió de punts clau 2D -> 3D.

Després d'analitzar els models que hi ha actualment, vam determinar que VideoPose3D és la solució que s'adapta millor a les necessitats de la majoria de les aplicacions de fitness impulsades per IA. L'entrada que utilitza aquest sistema hauria de permetre detectar un conjunt 2D de punts clau, on s'aplica un model, entrenat prèviament al conjunt de dades COCO 2017, com a Detector 2D. 

Per a la predicció més precisa de la posició d'una articulació o punt clau actual, VideoPose3D pot utilitzar diversos fotogrames durant una seqüència curta de temps per generar informació de la posició en 2D. 

Per augmentar encara més la precisió de l'estimació de la postura en 3D, més d'una càmera pot reunir punts de vista alternatius de l'usuari que realitza el mateix exercici o rutina. Tingueu en compte, però, que requereix una major potència de processament i una arquitectura de model especialitzada per fer front a múltiples entrades de flux de vídeo.

Recentment, Google va donar a conèixer el seu sistema BlazePose, un model orientat a dispositius mòbils per estimar la posició humana augmentant el nombre de punts clau analitzats a 33, un superconjunt del conjunt de punts clau COCO i dues topologies més: BlazePalm i BlazeFace. Com a resultat, el model BlazePose pot produir resultats de predicció de poses coherents amb models manuals i models facials mitjançant l'articulació de la semàntica corporal.

Cada component dins d'un sistema d'estimació de la postura humana basat en l'aprenentatge automàtic ha de ser ràpid, prenent un màxim d'un parell de mil·lisegons per fotograma per a la detecció de la postura i els models de seguiment. 

A causa del fet que el gasoducte BlazePose (que inclou components d'estimació i seguiment de poses) ha d'operar en una varietat de dispositius mòbils en temps real, cada part individual del canal està dissenyada per ser molt eficient computacionalment i funcionar a 200-1000 FPS. .

L'estimació i el seguiment de les posicions al vídeo on no se sap si la persona està present i on es fa normalment en dues etapes. 

En una primera etapa, s'executa un model de detecció d'objectes per localitzar la presència d'un humà o identificar-ne l'absència. Un cop detectada la persona, el mòdul d'estimació de la postura pot processar l'àrea localitzada que conté la persona i predir la posició dels punts clau.

Un desavantatge d'aquesta configuració és que requereix mòduls de detecció d'objectes i d'estimació de poses per executar-se per a cada fotograma que consumeix recursos computacionals addicionals. Els autors de BlazePose, però, van idear una manera intel·ligent de solucionar aquest problema i utilitzar-lo de manera eficient en altres mòduls de detecció de punts clau com ara FaceMesh i Mà MediaPipe.

La idea és que un mòdul de detecció d'objectes (detector de cares en el cas de BlazePose) només es pot utilitzar per iniciar el seguiment de la postura en el primer fotograma, mentre que el seguiment posterior de la persona es pot fer utilitzant exclusivament les prediccions de la postura després d'alguna alineació de la postura. paràmetres per als quals es prediuen mitjançant el model d'estimació de la postura.

La cara produeix el senyal més fort quant a la posició del tors per a la xarxa neuronal, com a resultat de la variació relativament petita en l'aparença i l'alt contrast en les seves característiques. En conseqüència, és possible crear un sistema ràpid i de baix cost per a la detecció de poses mitjançant una sèrie de supòsits justificables basats en la idea que el cap humà es podrà localitzar en cada cas d'ús personal.

Superació dels reptes de l'estimació de la postura humana

L'ús de l'estimació de la postura a les aplicacions de fitness s'enfronta al repte del gran volum de la gamma de postures humanes, per exemple, els centenars d'asanes en la majoria de règims de ioga. 

A més, el cos de vegades bloquejarà determinades extremitats tal com capta una càmera determinada, els usuaris poden portar vestits variats que enfosquin les característiques corporals i l'aspecte personal.

Quan feu ús de qualsevol model pre-entrenat, tingueu en compte que els moviments corporals inusuals o angles estranys de la càmera poden provocar errors en l'estimació de la postura humana. Podem mitigar aquest problema fins a cert punt mitjançant l'ús de dades sintètiques d'una representació de model de cos humà en 3D, o ajustant amb dades específiques del domini en qüestió.

La bona notícia és que podem evitar o mitigar la majoria de les debilitats. La clau per fer-ho és escollir les dades d'entrenament i l'arquitectura de model adequades. A més, la tendència de desenvolupament en l'àmbit de la tecnologia d'estimació de la postura humana suggereix que alguns dels problemes als quals ens enfrontem ara seran menys rellevants en els propers anys.

La paraula final

L'estimació de la postura humana té una varietat d'usos futurs potencials fora de l'àrea de les aplicacions de fitness i el seguiment dels moviments humans, des dels jocs fins a l'animació, la realitat augmentada i la robòtica. Això no representa una llista completa de les possibilitats, però destaca algunes de les àrees més probables on l'estimació de la postura humana contribuirà al nostre paisatge digital.

Maksym té ganes d'obtenir noves idees i experiència en ciència de dades i aprenentatge automàtic. Està especialment interessat en les tecnologies basades en l'aprenentatge profund i la seva aplicació a casos d'ús empresarial.