Stumm AI Pose Estimation in Fitness Applikatioun - Unite.AI
Connect mat eis

Gesondheetswiesen

AI Pose Estimatioun an der Fitnessapplikatioun

mm

publizéiert

 on

Vum Maksym Tatariants, Data Science Engineer bei MobiDev.

Mënschlech Poseschätzung bezitt sech op eng Technologie - zimlech nei, awer séier evoluéiert - déi e wesentlechen Deel an der Fitness- an Danzapplikatioune spillt, wat eis erlaabt digitalen Inhalt iwwer d'real Welt ze placéieren.

Kuerz gesot, d'Konzept vun der mënschlecher Poseschätzung ass eng Computervisioun-baséiert Technologie fäeg fir mënschlech Haltung z'entdecken an ze veraarbecht. De wichtegsten an zentrale Bestanddeel vun dëser Technologie ass mënschlech Kierpermodelléierung. Dräi Kierpermodeller sinn am meeschte prominent an der aktueller mënschlecher Poseschätzungssystemer - Skelettbaséiert, Konturbaséiert a Volumenbaséiert.

Skelett-baséiert Modell

Dëse Modell besteet aus enger Rei vu Gelenker (Schlësselpunkte), wéi Knéien, Knöchel, Handgelenk, Ellbogen, Schëlleren, an d'Orientéierung vun de Glieder vum Kierper. Dëse Modell ass bemierkenswäert fir seng Flexibilitéit, an als solch ass gëeegent fir béid 3-dimensional an 2-dimensional mënschlech Poseschätzung. Mat 3-zweedimensional Modelléierung benotzt d'Léisung e RGB Bild a fënnt d'Gelenker 'X, Y, an Z Koordinaten. Mat 2-zweedimensional Modeller, ass et déi selwecht Analyse vun engem RGB Bild, mee mat der X an Y Koordinaten.

Kontur-baséiert Modell

Dëse Modell benotzt d'Konturen vum Torso a Glidder vum Kierper, wéi och hir rau Breet. Hei hëlt d'Léisung d'Silhouette vum Kierperrahmen a mécht Kierperdeeler als Rechtecker a Grenzen an deem Kader.

Volume-baséiert Modell

Dëse Modell benotzt allgemeng eng Serie vun 3-zweedimensionalen Scans fir d'Form vum Kierper z'erfaassen an et an e Kader vu Formen a geometresche Meshes ëmzewandelen. Dës Forme kreéieren eng 3D Serie vu Posen a Kierperrepresentatioune.

Wéi 3D Mënsch Pose Estimatioun Wierker

Fitness Uwendungen tendéieren op 3-dimensional mënschlech Poseschätzung ze vertrauen. Fir dës Apps, wat méi Informatioun iwwer déi mënschlech Pose, wat besser. Mat dëser Technik wäert de Benotzer vun der App sech selwer ophuelen an un enger Übung oder Workout Routine deelhuelen. D'App analyséiert dann d'Kierperbeweegunge vum Benotzer, bitt Korrekturen fir Feeler oder Ongenauegkeeten.

Dës Zort vun App Flowchart follegt typesch dëst Muster:

  • Als éischt, sammelen Daten iwwer d'Bewegungen vum Benotzer wärend se d'Übung maachen.
  • Als nächst, bestëmmen wéi korrekt oder falsch d'Bewegunge vum Benotzer waren.
  • Endlech, weist de Benotzer iwwer d'Interface wat Feeler se gemaach hunn.

De Moment ass de Standard an der mënschlecher Posetechnologie COCO Topologie. COCO Topologie besteet aus 17 Landmarken iwwer de Kierper, rangéiert vum Gesiicht op d'Äerm bis op d'Been. Notéiert datt COCO net deen eenzege mënschleche Kierper Pose Kader ass, nëmmen deen am meeschte benotzt.

Dës Aart vu Prozess benotzt typesch déif Maschinn Léieren Technologie fir d'Extraktioun vu Gelenker beim Schätzung vun der Pose vum Benotzer. Et benotzt dann Geometrie-baséiert Algorithmen fir Sënn ze maachen wat et fonnt gëtt (relativ Positiounen vun den detektéierten Gelenker analyséieren). Wärend en dynamesche Video als seng Quelldaten benotzt, kann de System eng Serie vu Frames benotzen, net nëmmen een eenzegt Bild, fir seng Schlësselpunkten z'erfëllen. D'Resultat ass eng vill méi präzis Rendering vun de richtege Beweegunge vum Benotzer, well de System kann Informatioune vun den ugrenzenden Rummen benotzen fir all Onsécherheeten iwwer d'Positioun vum mënschleche Kierper am aktuelle Frame ze léisen.

Aus den aktuellen Techniken fir 3D Poseschätzung an Fitnessapplikatiounen ze benotzen, ass déi genaust Approche fir als éischt e Modell z'applizéieren fir 2D Keypoints z'entdecken an duerno d'2D Detektioun mat engem anere Modell ze veraarbecht fir se an 3D Keypoint Prognosen ze konvertéieren. 

An Fuerschung mir gepost viru kuerzem, eng eenzeg Videoquell gouf benotzt, mat konvolutionalen neuralen Netzwierker mat erweiderten temporäre Konvolutiounen, déi applizéiert ginn fir den 2D -> 3D Keypoint Konversioun ze maachen.

Nodeems mir d'Modeller déi momentan dobaussen analyséiert hunn, hu mir festgestallt datt VideoPose3D d'Léisung ass, déi am Beschten un d'Bedierfnesser vun de meescht AI-driven Fitnessapplikatiounen ugepasst ass. Den Input mat dësem System soll et erlaben eng 2D-Set vu Schlësselpunkten z'entdecken, wou e Modell, pre-trainéiert op COCO 2017 Dataset, als e 2D Detektor. 

Fir déi präzis Prognose vun der Positioun vun engem aktuellen Gelenk oder Schlësselpunkt, kann VideoPose3D verschidde Frames iwwer eng kuerz Sequenz vun Zäit benotzen fir 2D Posinformatioun ze generéieren. 

Fir d'Genauegkeet vun der 3D Poseschätzung weider ze stäerken, kënne méi wéi eng Kamera alternativ Standpunkter vum Benotzer sammelen, deen déiselwecht Übung oder Routine ausféiert. Notéiert awer datt et méi grouss Veraarbechtungskraaft wéi och spezialiséiert Modellarchitektur erfuerdert fir mat multiple Videostream-Inputen ze këmmeren.

Viru kuerzem Google ee guer hire BlazePose System, e mobilen Apparat orientéierte Modell fir d'mënschlech Pose ze schätzen andeems d'Zuel vun den analyséierte Keypoints op 33 erhéicht gëtt, e Superset vum COCO Keypoint Set an zwee aner Topologien - BlazePalm a BlazeFace. Als Resultat kann de BlazePose Modell Poseprediktiounsresultater konsequent mat Handmodeller a Gesiichtsmodeller produzéieren andeems Dir Kierpersemantik artikuléiert.

All Komponent an engem Maschinnléiere-baséiert mënschleche Pose-Estimatiounssystem muss séier sinn, e Maximum vun e puer Millisekonnen pro Frame fir Posserkennung an Tracking Modeller ze huelen. 

Wéinst der Tatsaach datt d'BlazePose Pipeline (déi Poseestimatioun an Tracking Komponenten enthält) muss op verschiddenen mobilen Apparater an Echtzäit operéieren, ass all eenzel Deel vun der Pipeline entwéckelt fir ganz computational effizient ze sinn a lafen op 200-1000 FPS .

Pose Schätzung an Tracking am Video wou et net bekannt ass ob a wou d'Persoun präsent ass gëtt normalerweis an zwou Etappe gemaach. 

Op der éischter Etapp gëtt en Objekterkennungsmodell ausgeführt fir d'Präsenz vun engem Mënsch ze lokaliséieren oder hir Fehlen z'identifizéieren. Nodeems d'Persoun erkannt gouf, kann de Poseestimatiounsmodul dat lokaliséiert Gebitt mat der Persoun veraarbecht an d'Positioun vun de Schlësselpunkte viraussoen.

En Nodeel vun dësem Setup ass datt et souwuel Objekterkennung wéi och Poseestimatiounsmoduler erfuerdert fir fir all Frame ze lafen deen extra computational Ressourcen verbraucht. D'Auteuren vun der BlazePose hunn awer e clevere Wee entwéckelt fir dëst Thema ëmzegoen an et effizient an anere Keypoint Detektiounsmoduler ze benotzen wéi z. FaceMesh an MediaPipe Hand.

D'Iddi ass datt en Objekterkennungsmodul (Gesiichtsdetektor am Fall vu BlazePose) nëmme ka benotzt ginn fir d'Pose Tracking am éischte Frame ze kickstarten, während déi spéider Tracking vun der Persoun nëmme mat de Pose Prognosen no e puer Pose Ausrichtung ka gemaach ginn, Parameteren fir déi virausgesot gi mam Poseestimatiounsmodell.

D'Gesiicht produzéiert de stäerkste Signal iwwer d'Positioun vum Torso fir den neuralen Netzwierk, als Resultat vun der relativ klenger Varianz am Erscheinungsbild an héije Kontrast a senge Funktiounen. Dofir ass et méiglech e séieren, nidderegen Overhead System fir Posserkennung ze kreéieren duerch eng Serie vu gerechtfäerdegt Viraussetzungen, baséiert op der Iddi datt de mënschleche Kapp an all perséinleche Benotzungsfall lokaliséierbar ass.

Erausfuerderunge vun Human Pose Estimatioun iwwerwannen

D'Benotzung vun der Poseschätzung a Fitness Apps stellt d'Erausfuerderung vum pure Volumen vu mënschleche Posen, zum Beispill, déi Honnerte vun Asanas an de meeschte Yoga-Regime. 

Weider blockéiert de Kierper heiansdo gewësse Glidder wéi se vun enger bestëmmter Kamera gefaange sinn, d'Benotzer kënnen variéiert Outfits droen, déi Kierperfeatures a perséinleche Looks verstoppen.

Wärend Dir vun all pre-trainéierte Modeller benotzt, bemierkt datt ongewéinlech Kierperbewegungen oder komesch Kamerawinkelen zu Feeler an der mënschlecher Poseschätzung. Mir kënnen dëse Problem zu engem gewësse Mooss reduzéieren andeems Dir synthetesch Daten aus engem 3D mënschleche Kierpermodell Rendering benotzt, oder duerch Feintuning mat Daten spezifesch fir d'Domain a Fro.

D'Gutt Noriicht ass datt mir d'Majoritéit vu Schwächen vermeiden oder reduzéieren. De Schlëssel fir dat ze maachen ass déi richteg Trainingsdaten a Modellarchitektur auszewielen. Weider, d'Tendenz vun der Entwécklung am Beräich vun der mënschlecher Pose Schätzungstechnologie suggeréiert datt e puer vun den Themen, déi mir elo stellen, manner relevant sinn an de kommende Joeren.

Dat lescht Wuert

Mënschlech Poseschätzung hält eng Vielfalt vu potenziellen zukünftege Gebrauch ausserhalb vum Gebitt vu Fitness Apps a verfollegt mënschlech Bewegungen, vu Spill bis Animatioun bis Augmented Reality bis Robotik. Dat stellt net eng komplett Lëscht vun de Méiglechkeeten duer, awer beliicht e puer vun de wahrscheinlechste Beräicher wou d'Mënschlech Poseschätzung zu eiser digitaler Landschaft bäidroe wäert.

Maksym ass gär nei Abléck an Erfarung an Data Science a Machine Learning ze kréien. Hien ass besonnesch interesséiert fir Deep Learning-baséiert Technologien an hir Uwendung op Geschäftsgebrauchsfäll.