škrbina Ocena položaja z umetno inteligenco v aplikaciji za fitnes – Unite.AI
Povežite se z nami

Zdravstveno varstvo

Ocena položaja z umetno inteligenco v aplikaciji za fitnes

mm

objavljeno

 on

Avtor: Maksym Tatariants, inženir podatkovne znanosti pri MobiDev.

Ocena človeške postave se nanaša na tehnologijo – dokaj novo, a se hitro razvija –, ki igra pomembno vlogo v aplikacijah za fitnes in ples ter nam omogoča, da digitalno vsebino postavimo v resnični svet.

Skratka, koncept ocene človeške drže je tehnologija, ki temelji na računalniškem vidu in lahko zazna in obdela človeško držo. Najpomembnejši in osrednji del te tehnologije je modeliranje človeškega telesa. Trije telesni modeli so najpomembnejši v trenutnih sistemih za ocenjevanje postave človeka – na podlagi okostja, na podlagi obrisov in na podlagi volumna.

Model na osnovi okostja

Ta model je sestavljen iz niza sklepov (ključnih točk), kot so kolena, gležnji, zapestja, komolci, ramena in usmerjenost telesnih okončin. Ta model je znan po svoji prilagodljivosti in je kot tak primeren za 3- in 2-dimenzionalno oceno človeške drže. S 3-dimenzionalnim modeliranjem rešitev uporablja sliko RGB in poišče koordinate X, Y in Z spojev. Pri 2-dimenzionalnem modeliranju gre za enako analizo slike RGB, vendar z uporabo koordinat X in Y.

Konturni model

Ta model uporablja obrise trupa in okončin telesa ter njihovo grobo širino. Tukaj rešitev vzame silhueto okvirja telesa in dele telesa upodablja kot pravokotnike in meje znotraj tega okvira.

Model na podlagi količine

Ta model na splošno uporablja serijo 3-dimenzionalnih skeniranj, da zajame obliko telesa in jo pretvori v okvir oblik in geometrijskih mrež. Te oblike ustvarjajo 3D serijo poz in telesnih predstavitev.

Kako deluje 3D ocena človeške poze

Aplikacije za fitnes se običajno zanašajo na 3-dimenzionalno oceno človeške drže. Za te aplikacije je več informacij o človeški postavi, tem bolje. S to tehniko se uporabnik aplikacije posname, ko sodeluje pri vadbi ali vadbi. Aplikacija bo nato analizirala gibe uporabnikovega telesa in ponudila popravke za napake ali netočnosti.

Ta vrsta diagrama poteka aplikacije običajno sledi temu vzorcu:

  • Najprej zberite podatke o gibanju uporabnika med izvajanjem vaje.
  • Nato ugotovite, kako pravilni ali nepravilni so bili uporabnikovi gibi.
  • Nazadnje uporabniku prek vmesnika pokažite, katere napake je morda naredil.

Trenutno je standard v tehnologiji človeške poze COCO topologija. Topologijo COCO sestavlja 17 mejnikov po telesu, od obraza do rok in nog. Upoštevajte, da COCO ni edini okvir za pozo človeškega telesa, le najpogosteje uporabljen.

Ta vrsta postopka običajno uporablja tehnologijo globokega strojnega učenja za ekstrakcijo sklepov pri ocenjevanju položaja uporabnika. Nato uporabi algoritme, ki temeljijo na geometriji, da razume, kaj je našel (analizira relativne položaje zaznanih spojev). Medtem ko kot izvorne podatke uporablja dinamični videoposnetek, lahko sistem za zajemanje ključnih točk uporabi niz okvirjev, ne le ene slike. Rezultat je veliko natančnejši prikaz dejanskih gibov uporabnika, saj lahko sistem uporabi informacije iz sosednjih okvirjev, da razreši morebitne negotovosti glede položaja človeškega telesa v trenutnem okvirju.

Od trenutnih tehnik za uporabo ocene položaja 3D v fitnes aplikacijah je najnatančnejši pristop, da najprej uporabimo model za zaznavanje ključnih točk 2D in nato obdelamo zaznavanje 2D z drugim modelom, da jih pretvorimo v napovedi ključnih točk 3D. 

v Raziskave ki smo ga nedavno objavili, je bil uporabljen en sam vir videoposnetka z uporabo konvolucijskih nevronskih mrež z razširjenimi časovnimi vijugami za izvedbo pretvorbe ključnih točk 2D -> 3D.

Po analizi modelov, ki so trenutno na voljo, smo ugotovili, da je VideoPose3D rešitev, ki je najbolje prilagojena potrebam večine fitnes aplikacij, ki jih poganja AI. Vnos, ki uporablja ta sistem, mora omogočati zaznavanje 2D niza ključnih točk, kjer je model, predhodno usposobljen na naboru podatkov COCO 2017, uporabljen kot a 2D detektor. 

Za najbolj natančno napoved položaja trenutnega sklepa ali ključne točke lahko VideoPose3D uporabi več sličic v kratkem časovnem zaporedju za ustvarjanje informacij o 2D položaju. 

Za dodatno povečanje natančnosti ocene položaja v 3D lahko več kot ena kamera zbere alternativne poglede uporabnika, ki izvaja isto vajo ali rutino. Upoštevajte pa, da zahteva večjo procesorsko moč in specializirano arhitekturo modela za obravnavo več vhodov video toka.

Pred kratkim Google predstavil njihov sistem BlazePose, na mobilne naprave usmerjen model za ocenjevanje človeške drže s povečanjem števila analiziranih ključnih točk na 33, nadnabor nabora ključnih točk COCO in dve drugi topologiji – BlazePalm in BlazeFace. Posledično lahko model BlazePose ustvari rezultate predvidevanja poze, ki so skladni z modeli rok in obrazov z artikulacijo semantike telesa.

Vsaka komponenta v sistemu za ocenjevanje položaja človeka, ki temelji na strojnem učenju, mora biti hitra in za modele za zaznavanje položaja in sledenje potrebuje največ nekaj milisekund na okvir. 

Zaradi dejstva, da mora cevovod BlazePose (ki vključuje komponente za oceno položaja in sledenje) delovati na različnih mobilnih napravah v realnem času, je vsak posamezen del cevovoda zasnovan tako, da je zelo računsko učinkovit in deluje pri 200–1000 FPS .

Ocenjevanje poze in sledenje v videoposnetku, kjer ni znano, ali in kje je oseba prisotna, običajno poteka v dveh fazah. 

Na prvi stopnji se zažene model zaznavanja objekta, da se ugotovi prisotnost človeka ali ugotovi njegova odsotnost. Ko je oseba zaznana, lahko modul za oceno položaja obdela lokalizirano območje, ki vsebuje osebo, in napove položaj ključnih točk.

Slaba stran te nastavitve je, da zahteva module za zaznavanje objektov in ocenjevanje poze, ki se izvajajo za vsak okvir, kar porabi dodatne računalniške vire. Avtorji BlazePose pa so razvili pameten način, kako se izogniti tej težavi in ​​jo učinkovito uporabiti v drugih modulih za zaznavanje ključnih točk, kot je npr. FaceMesh in MediaPipe Hand.

Ideja je, da se lahko modul za zaznavanje predmetov (detektor obraza v primeru BlazePose) uporabi samo za zagon sledenja pozi v prvem kadru, medtem ko se lahko naknadno sledenje osebe izvaja izključno z uporabo napovedi poze po določeni poravnavi poze, parametri, za katere so predvideni z uporabo modela ocene položaja.

Obraz proizvaja najmočnejši signal o položaju trupa za nevronsko mrežo, kar je posledica relativno majhne razlike v videzu in velikega kontrasta v njegovih značilnostih. Posledično je mogoče ustvariti hiter sistem z nizkimi stroški za zaznavanje položaja z nizom upravičenih predpostavk, ki temeljijo na zamisli, da bo človeško glavo mogoče locirati v vsakem primeru osebne uporabe.

Premagovanje izzivov ocenjevanja človeške postave

Uporaba ocene položaja v aplikacijah za fitnes se sooča z izzivom velikega števila človeških položajev, na primer na stotine asan v večini režimov joge. 

Poleg tega bo telo včasih blokiralo določene okončine, kot jih posname katera koli kamera, uporabniki lahko nosijo različna oblačila, ki zakrijejo poteze telesa in osebni videz.

Pri uporabi predhodno usposobljenih modelov upoštevajte, da lahko nenavadni gibi telesa ali čudni koti kamere povzročijo napake pri oceni človeške drže. To težavo lahko do določene mere ublažimo z uporabo sintetičnih podatkov iz upodobitve 3D modela človeškega telesa ali s fino nastavitvijo s podatki, specifičnimi za zadevno domeno.

Dobra novica je, da se lahko izognemo ali omilimo večino slabosti. Ključ do tega je izbira pravih podatkov o usposabljanju in arhitekture modela. Nadalje, tendenca razvoja na področju tehnologije ocenjevanja človeške postave kaže, da bodo nekatera vprašanja, s katerimi se soočamo zdaj, v prihodnjih letih manj pomembna.

Končna beseda

Ocena položaja človeka ima različne možne prihodnje uporabe zunaj področja aplikacij za fitnes in sledenja človeškim gibom, od iger do animacije do obogatene resničnosti do robotike. To ne predstavlja celotnega seznama možnosti, vendar poudarja nekaj najverjetnejših področij, kjer bo ocena človeške postave prispevala k naši digitalni pokrajini.

Maksym si želi pridobiti nova spoznanja in izkušnje na področju podatkovne znanosti in strojnega učenja. Še posebej ga zanimajo tehnologije, ki temeljijo na globokem učenju, in njihova uporaba v primerih poslovne uporabe.