peň Odhad pozície AI v aplikácii Fitness - Unite.AI
Spojte sa s nami

Zdravotná starostlivosť

Odhad pozície AI v aplikácii Fitness

mm

uverejnené

 on

Maksym Tatariants, Data Science Engineer v MobiDev.

Odhad ľudskej pozície sa vzťahuje na technológiu – pomerne novú, no rýchlo sa vyvíjajúcu – ktorá hrá významnú úlohu vo fitness a tanečných aplikáciách a umožňuje nám umiestniť digitálny obsah do skutočného sveta.

Stručne povedané, koncept odhadu ľudskej polohy je technológia založená na počítačovom videní, ktorá je schopná odhaliť a spracovať ľudské držanie tela. Najdôležitejšou a ústrednou súčasťou tejto technológie je modelovanie ľudského tela. V rámci súčasných systémov odhadu ľudskej polohy sú najvýznamnejšie tri modely tela – na základe kostry, na základe obrysu a na základe objemu.

Model založený na kostre

Tento model sa skladá zo sady kĺbov (kľúčových bodov), ako sú kolená, členky, zápästia, lakte, ramená a orientácia končatín tela. Tento model je pozoruhodný svojou flexibilitou a ako taký je vhodný pre 3-dimenzionálne aj 2-dimenzionálne odhady ľudskej pozície. Pri trojrozmernom modelovaní riešenie používa RGB obraz a nájde súradnice X, Y a Z kĺbov. Pri dvojrozmernom modelovaní ide o rovnakú analýzu obrazu RGB, ale s použitím súradníc X a Y.

Model založený na obrysoch

Tento model využíva obrysy trupu a končatín tela, ako aj ich hrubú šírku. Tu riešenie preberá siluetu rámu karosérie a vykresľuje časti tela ako obdĺžniky a hranice v rámci tohto rámca.

Model založený na objeme

Tento model vo všeobecnosti používa sériu 3-rozmerných skenov na zachytenie tvaru tela a jeho premenu na štruktúru tvarov a geometrických sietí. Tieto tvary vytvárajú sériu 3D pozícií a zobrazení tela.

Ako funguje 3D odhad ľudskej pozície

Fitness aplikácie majú tendenciu spoliehať sa na 3-rozmerný odhad ľudskej pozície. V prípade týchto aplikácií platí, že čím viac informácií o ľudskej póze, tým lepšie. Pomocou tejto techniky používateľ aplikácie zaznamená svoju účasť na cvičení alebo cvičebnej rutine. Aplikácia potom analyzuje pohyby tela používateľa a ponúka opravy chýb alebo nepresností.

Vývojový diagram tohto typu aplikácie sa zvyčajne riadi týmto vzorom:

  • Najprv zhromaždite údaje o pohyboch používateľa počas vykonávania cvičenia.
  • Ďalej zistite, nakoľko správne alebo nesprávne boli pohyby používateľa.
  • Nakoniec cez rozhranie ukážte používateľovi, aké chyby mohol urobiť.

Práve teraz je štandardom v technológii ľudských póz topológia COCO. Topológia COCO sa skladá zo 17 orientačných bodov na celom tele, od tváre cez ruky až po nohy. Všimnite si, že COCO nie je jediným rámcom pre pózu ľudského tela, ale len najčastejšie používaným.

Tento typ procesu zvyčajne využíva technológiu hlbokého strojového učenia na extrakciu kĺbov pri odhadovaní polohy používateľa. Potom využíva algoritmy založené na geometrii, aby dal zmysel tomu, čo sa zistilo (analyzuje relatívne polohy zistených kĺbov). Pri používaní dynamického videa ako zdrojových údajov môže systém na zachytenie kľúčových bodov použiť sériu snímok, nielen jeden obrázok. Výsledkom je oveľa presnejšie vykreslenie skutočných pohybov používateľa, pretože systém môže použiť informácie zo susedných snímok na vyriešenie akýchkoľvek neistôt týkajúcich sa polohy ľudského tela v aktuálnej snímke.

Zo súčasných techník na používanie 3D odhadu pozície vo fitness aplikáciách je najpresnejším prístupom najprv použiť model na detekciu 2D kľúčových bodov a následne spracovať 2D detekciu s iným modelom, aby sa previedli na 3D predpovede kľúčových bodov. 

V výskum nedávno sme uverejnili, bol použitý jeden zdroj videa s konvolučnými neurónovými sieťami s rozšírenými časovými konvolúciami aplikovanými na vykonanie konverzie kľúčových bodov 2D -> 3D.

Po analýze modelov, ktoré sú v súčasnosti k dispozícii, sme zistili, že VideoPose3D je riešenie najlepšie prispôsobené potrebám väčšiny fitness aplikácií poháňaných AI. Vstup pomocou tohto systému by mal umožniť detekciu 2D sady kľúčových bodov, kde sa model, vopred pripravený na súbore údajov COCO 2017, použije ako a 2D detektor. 

Pre čo najpresnejšiu predpoveď polohy aktuálneho kĺbu alebo kľúčového bodu môže VideoPose3D použiť viacero snímok v krátkom časovom slede na generovanie 2D informácií o polohe. 

Na ďalšie zvýšenie presnosti odhadu 3D polohy môže viac ako jedna kamera zhromažďovať alternatívne uhly pohľadu používateľa vykonávajúceho rovnaké cvičenie alebo rutinu. Všimnite si však, že vyžaduje väčší výpočtový výkon, ako aj špecializovanú modelovú architektúru, aby sa vysporiadal s viacerými vstupmi video streamu.

Nedávno spoločnosť Google predstavila ich systém BlazePose, model orientovaný na mobilné zariadenia na odhadovanie ľudskej pozície zvýšením počtu analyzovaných kľúčových bodov na 33, nadmnožina sady kľúčových bodov COCO a dve ďalšie topológie – BlazePalm a BlazeFace. Výsledkom je, že model BlazePose môže produkovať výsledky predikcie polohy konzistentné s modelmi rúk a tvárí pomocou artikulácie sémantiky tela.

Každý komponent v rámci systému odhadu ľudskej polohy založenom na strojovom učení musí byť rýchly, pričom modely detekcie a sledovania polohy zaberú maximálne niekoľko milisekúnd na snímku. 

Vzhľadom na skutočnosť, že BlazePose pipeline (ktorá zahŕňa komponenty na odhad polohy a sledovanie) musí fungovať na rôznych mobilných zariadeniach v reálnom čase, každá jednotlivá časť potrubia je navrhnutá tak, aby bola výpočtovo veľmi efektívna a bežala pri 200-1000 FPS. .

Odhad a sledovanie polohy vo videu, kde nie je známe, či a kde je osoba prítomná, sa zvyčajne vykonáva v dvoch fázach. 

V prvej fáze sa spustí model detekcie objektov na lokalizáciu prítomnosti človeka alebo na identifikáciu jeho neprítomnosti. Po detekcii osoby môže modul odhadu polohy spracovať lokalizovanú oblasť obsahujúcu osobu a predpovedať polohu kľúčových bodov.

Nevýhodou tohto nastavenia je, že vyžaduje spustenie modulov na detekciu objektov aj na odhad polohy pre každý rámec, ktorý spotrebúva ďalšie výpočtové zdroje. Autori BlazePose však vymysleli šikovný spôsob, ako tento problém obísť a efektívne ho využiť v iných moduloch detekcie kľúčových bodov ako napr. FaceMesh a Ruka MediaPipe.

Myšlienkou je, že modul na detekciu objektov (detektor tváre v prípade BlazePose) možno použiť iba na naštartovanie sledovania polohy v prvej snímke, zatiaľ čo následné sledovanie osoby možno vykonať výlučne pomocou predpovedí polohy po určitom zarovnaní polohy, parametre, pre ktoré sa predpovedajú pomocou modelu odhadu polohy.

Tvár produkuje najsilnejší signál, pokiaľ ide o polohu trupu pre neurónovú sieť, v dôsledku relatívne malých rozdielov vo vzhľade a vysokého kontrastu v jej črtách. V dôsledku toho je možné vytvoriť rýchly a nenáročný systém na detekciu polohy prostredníctvom série opodstatnených predpokladov založených na myšlienke, že ľudskú hlavu bude možné lokalizovať v každom osobnom prípade.

Prekonávanie výziev odhadu ľudskej pózy

Využitie odhadu póz vo fitness aplikáciách čelí výzve obrovského množstva rôznych ľudských póz, napríklad stoviek ásan vo väčšine režimov jogy. 

Okrem toho telo niekedy blokuje určité končatiny, ako to zachytila ​​ktorákoľvek kamera, používatelia môžu nosiť rôzne oblečenie, ktoré zakrýva telesné rysy a osobný vzhľad.

Pri používaní akýchkoľvek predtrénovaných modelov si všimnite, že môžu viesť k nezvyčajným pohybom tela alebo zvláštnym uhlom kamery chyby v odhade ľudskej polohy. Tento problém môžeme do určitej miery zmierniť použitím syntetických údajov z vykreslenia 3D modelu ľudského tela alebo doladením s údajmi špecifickými pre danú doménu.

Dobrou správou je, že väčšine nedostatkov sa môžeme vyhnúť alebo ich zmierniť. Kľúčom k tomu je výber správnych tréningových dát a architektúry modelu. Okrem toho tendencia vývoja v oblasti technológie odhadu ľudskej polohy naznačuje, že niektoré z problémov, ktorým teraz čelíme, budú v nadchádzajúcich rokoch menej relevantné.

Posledné slovo

Odhad ľudskej pozície má množstvo potenciálnych budúcich použití mimo oblasti fitness aplikácií a sledovania ľudských pohybov, od hier cez animácie až po rozšírenú realitu až po robotiku. To nepredstavuje úplný zoznam možností, ale zdôrazňuje niektoré z najpravdepodobnejších oblastí, kde odhad ľudskej pozície prispeje k našej digitálnej krajine.

Maksym chce získať nové poznatky a skúsenosti v oblasti dátovej vedy a strojového učenia. Zaujíma sa najmä o technológie založené na Deep Learning a ich aplikáciu na obchodné prípady.