škrbina AI procjena poze u fitness aplikaciji - Unite.AI
Povežite se s nama

Zdravstvo

AI procjena poze u aplikaciji za fitness

mm

Objavljeno

 on

Autor Maksym Tatariants, inženjer znanosti o podacima u MobiDev.

Procjena ljudske poze odnosi se na tehnologiju – prilično novu, ali koja se brzo razvija – koja igra značajnu ulogu u fitness i plesnim aplikacijama, omogućujući nam postavljanje digitalnog sadržaja preko stvarnog svijeta.

Ukratko, koncept procjene ljudskog položaja je tehnologija zasnovana na računalnom vidu koja može otkriti i obraditi ljudski položaj. Najvažniji i središnji dio ove tehnologije je modeliranje ljudskog tijela. Tri su modela tijela najistaknutija unutar trenutnih sustava za procjenu ljudske poze – na temelju kostura, na temelju obrisa i na temelju volumena.

Model temeljen na kosturu

Ovaj model sastoji se od niza zglobova (ključnih točaka), kao što su koljena, gležnjevi, zapešća, laktovi, ramena i orijentacija udova tijela. Ovaj je model poznat po svojoj fleksibilnosti i kao takav prikladan je i za 3-dimenzionalnu i za 2-dimenzionalnu procjenu ljudske poze. Uz 3-dimenzionalno modeliranje, rješenje koristi RGB sliku i pronalazi X, Y i Z koordinate zglobova. S 2-dimenzionalnim modeliranjem, to je ista analiza RGB slike, ali uz korištenje X i Y koordinata.

Model temeljen na konturama

Ovaj model koristi obrise torza i udova tijela, kao i njihovu grubu širinu. Ovdje rješenje uzima siluetu okvira tijela i prikazuje dijelove tijela kao pravokutnike i granice unutar tog okvira.

Model temeljen na volumenu

Ovaj model općenito koristi niz trodimenzionalnih skeniranja za hvatanje oblika tijela i pretvara ga u okvir oblika i geometrijskih mreža. Ovi oblici stvaraju 3D niz poza i prikaza tijela.

Kako funkcionira 3D procjena ljudske poze

Aplikacije za fitness obično se oslanjaju na 3-dimenzionalnu procjenu ljudske poze. Za ove aplikacije, što više informacija o ljudskoj pozi, to bolje. Pomoću ove tehnike korisnik aplikacije snimat će sebe kako sudjeluje u vježbi ili rutini vježbanja. Aplikacija će potom analizirati pokrete tijela korisnika, nudeći ispravke za pogreške ili netočnosti.

Ova vrsta dijagrama toka aplikacije obično slijedi ovaj obrazac:

  • Prvo prikupite podatke o pokretima korisnika tijekom izvođenja vježbe.
  • Zatim odredite koliko su korisnikovi pokreti bili točni ili netočni.
  • Na kraju, pokažite korisniku preko sučelja koje su pogreške možda napravili.

Trenutno je standard u tehnologiji ljudskih poza COCO topologija. COCO topologiju čini 17 orijentira po cijelom tijelu, u rasponu od lica preko ruku do nogu. Imajte na umu da COCO nije jedini okvir za pozu ljudskog tijela, samo onaj koji se najčešće koristi.

Ova vrsta procesa obično koristi tehnologiju dubokog strojnog učenja za izvlačenje zglobova u procjeni položaja korisnika. Zatim koristi algoritme temeljene na geometriji kako bi shvatio što je pronađeno (analizirao relativne položaje otkrivenih zglobova). Dok koristi dinamički video kao svoje izvorne podatke, sustav može koristiti niz okvira, a ne samo jednu sliku, da uhvati svoje ključne točke. Rezultat je daleko točniji prikaz korisnikovih stvarnih pokreta budući da sustav može koristiti informacije iz susjednih okvira za rješavanje bilo kakvih nejasnoća u vezi s položajem ljudskog tijela u trenutnom okviru.

Od trenutnih tehnika za korištenje 3D procjene položaja u fitness aplikacijama, najprecizniji pristup je prvo primijeniti model za otkrivanje 2D ključnih točaka i zatim obraditi 2D otkrivanje s drugim modelom kako bi ih pretvorili u 3D predviđanja ključnih točaka. 

u istraživanje koje smo nedavno objavili, korišten je jedan video izvor, s konvolucijskim neuronskim mrežama s proširenim vremenskim vijugama primijenjenim za izvođenje 2D -> 3D pretvorbe ključnih točaka.

Nakon analize modela koji su trenutno dostupni, utvrdili smo da je VideoPose3D rješenje najbolje prilagođeno potrebama većine fitness aplikacija vođenih umjetnom inteligencijom. Unos pomoću ovog sustava trebao bi omogućiti otkrivanje 2D skupa ključnih točaka, gdje se model, prethodno obučen na skupu podataka COCO 2017, primjenjuje kao a 2D detektor. 

Za najpreciznije predviđanje položaja trenutnog zgloba ili ključne točke, VideoPose3D može koristiti više okvira u kratkom vremenskom slijedu za generiranje informacija o 2D pozi. 

Kako bi se dodatno povećala točnost 3D procjene poze, više od jedne kamere može prikupiti alternativne točke gledišta korisnika koji izvodi istu vježbu ili rutinu. Imajte na umu, međutim, da zahtijeva veću procesorsku snagu, kao i specijaliziranu arhitekturu modela za rad s više ulaza video streama.

Nedavno je Google predstavio njihov BlazePose sustav, model orijentiran na mobilni uređaj za procjenu ljudskog položaja povećanjem broja analiziranih ključnih točaka na 33, nadskup skupa ključnih točaka COCO i dvije druge topologije – BlazePalm i BlazeFace. Kao rezultat toga, model BlazePose može proizvesti rezultate predviđanja položaja u skladu s modelima ruku i lica artikulirajući semantiku tijela.

Svaka komponenta unutar sustava za procjenu ljudske poze koji se temelji na strojnom učenju mora biti brza, uzimajući najviše nekoliko milisekundi po kadru za modele za otkrivanje poze i praćenje. 

Zbog činjenice da BlazePose cjevovod (koji uključuje komponente za procjenu položaja i praćenje) mora raditi na raznim mobilnim uređajima u stvarnom vremenu, svaki pojedinačni dio cjevovoda dizajniran je tako da bude računalno učinkovit i radi pri 200-1000 FPS .

Procjena poze i praćenje u videu gdje se ne zna je li i gdje je osoba prisutna obično se provodi u dvije faze. 

U prvoj fazi pokreće se model detekcije objekta kako bi se locirala prisutnost čovjeka ili identificirala njegova odsutnost. Nakon što je osoba otkrivena, modul za procjenu položaja može obraditi lokalizirano područje koje sadrži osobu i predvidjeti položaj ključnih točaka.

Loša strana ove postavke je ta što zahtijeva i module za otkrivanje objekta i procjenu poze za pokretanje za svaki okvir što troši dodatne računalne resurse. Međutim, autori BlazePosea osmislili su pametan način da zaobiđu ovaj problem i učinkovito ga iskoriste u drugim modulima za otkrivanje ključnih točaka, kao što su FaceMesh i MediaPipe Hand.

Ideja je da se modul za detekciju objekta (detektor lica u slučaju BlazePose) može koristiti samo za pokretanje praćenja poze u prvom kadru, dok se naknadno praćenje osobe može izvršiti korištenjem isključivo predviđanja poze nakon nekog usklađivanja poze, parametri za koje se predviđaju pomoću modela procjene poze.

Lice proizvodi najjači signal o položaju torza za neuronsku mrežu, kao rezultat relativno male varijacije u izgledu i visokog kontrasta u njegovim crtama. Posljedično, moguće je stvoriti brzi sustav s malim opterećenjem za detekciju poze kroz niz opravdanih pretpostavki utemeljenih na ideji da će se ljudska glava moći locirati u svakom slučaju osobne upotrebe.

Prevladavanje izazova procjene ljudske poze

Korištenje procjene položaja u aplikacijama za fitness suočava se s izazovom golemog opsega ljudskih poza, na primjer, stotine asana u većini režima joge. 

Nadalje, tijelo će ponekad blokirati određene udove snimljene bilo kojom kamerom, korisnici mogu nositi različitu odjeću koja prikriva značajke tijela i osobni izgled.

Dok koristite bilo koje prethodno obučene modele, imajte na umu da neobični pokreti tijela ili čudni kutovi kamere mogu dovesti do pogreške u procjeni ljudske poze. Ovaj problem možemo donekle ublažiti korištenjem sintetičkih podataka iz 3D renderiranja modela ljudskog tijela ili finim podešavanjem podataka specifičnih za predmetnu domenu.

Dobra vijest je da možemo izbjeći ili ublažiti većinu slabosti. Ključ za to je odabir pravih podataka za obuku i arhitekture modela. Nadalje, tendencija razvoja u području tehnologije procjene ljudske poze sugerira da će neka od pitanja s kojima se sada suočavamo biti manje relevantna u nadolazećim godinama.

Završna riječ

Procjena ljudske poze ima niz potencijalnih budućih upotreba izvan područja aplikacija za fitness i praćenja ljudskih pokreta, od igara preko animacije do proširene stvarnosti do robotike. To ne predstavlja potpuni popis mogućnosti, ali ističe neka od najvjerojatnijih područja u kojima će procjena ljudske poze doprinijeti našem digitalnom krajoliku.

Maksym želi stjecati nove uvide i iskustvo u znanosti o podacima i strojnom učenju. Posebno ga zanimaju tehnologije temeljene na dubokom učenju i njihova primjena u poslovnim slučajevima.