stub Stima tal-Pose AI fl-Applikazzjoni tal-Fitness - Unite.AI
Kuntatt magħna

Kura tas-saħħa

Stima tal-Pose AI fl-Applikazzjoni tal-Fitness

mm

ippubblikat

 on

Minn Maksym Tatariants, Inġinier tax-Xjenza tad-Data fi MobiDev.

L-istima tal-pożizzjoni umana tirreferi għal teknoloġija – pjuttost ġdida, iżda li tevolvi malajr – li qed taqdi rwol sinifikanti fl-applikazzjonijiet tal-fitness u ż-żfin, li tippermettilna npoġġu kontenut diġitali fid-dinja reali.

Fil-qosor, il-kunċett ta 'stima tal-pożi tal-bniedem huwa teknoloġija bbażata fuq il-viżjoni tal-kompjuter kapaċi li tiskopri u tipproċessa l-qagħda tal-bniedem. L-aktar parti importanti u ċentrali ta 'din it-teknoloġija hija l-immudellar tal-ġisem tal-bniedem. Tliet mudelli tal-ġisem huma l-aktar prominenti fis-sistemi attwali ta 'stima tal-pożi tal-bniedem - ibbażati fuq l-iskeletru, ibbażati fuq il-kontorn u bbażati fuq il-volum.

Mudell ibbażat fuq l-iskeletru

Dan il-mudell huwa magħmul minn sett ta 'ġogi (punti ewlenin), bħal irkopptejn, għekiesi, polz, minkbejn, spallejn, u l-orjentazzjoni tar-riġlejn tal-ġisem. Dan il-mudell huwa notevoli għall-flessibbiltà tiegħu, u bħala tali huwa adattat kemm għall-istima tal-pożi umani bi-dimensjonali kif ukoll bi dimensjonijiet. Bil-mudellar 3-dimensjonali, is-soluzzjoni tuża immaġni RGB u ssib il-koordinati X, Y, u Z tal-ġonot. Bil-mudellar bi-dimensjonali, hija l-istess analiżi ta 'immaġni RGB, iżda bl-użu tal-koordinati X u Y.

Mudell ibbażat fuq il-kontorn

Dan il-mudell jagħmel użu mill-kontorni tat-torso u r-riġlejn tal-ġisem, kif ukoll il-wisa 'ħarxa tagħhom. Hawnhekk, is-soluzzjoni tieħu s-siluwett tal-qafas tal-ġisem u tirrendi partijiet tal-ġisem bħala rettangoli u konfini f'dak il-qafas.

Mudell ibbażat fuq il-volum

Dan il-mudell ġeneralment juża serje ta 'skans tri-dimensjonali biex jaqbad il-forma tal-ġisem u jikkonvertiha f'qafas ta' forom u malji ġeometriċi. Dawn il-forom joħolqu serje 3D ta 'pożi u rappreżentazzjonijiet tal-ġisem.

Kif Taħdem Stima tal-Pożizzjoni tal-Bniedem 3D

L-applikazzjonijiet tal-fitness għandhom it-tendenza li jiddependu fuq stima tal-pożi umani tridimensjonali. Għal dawn l-apps, iktar ma jkun hemm informazzjoni dwar il-poża tal-bniedem, aħjar. B'din it-teknika, l-utent tal-app se jirreġistra lilhom infushom li jipparteċipaw f'rutina ta 'eżerċizzju jew workout. L-app imbagħad tanalizza l-movimenti tal-ġisem tal-utent, u toffri korrezzjonijiet għal żbalji jew ineżattezzi.

Dan it-tip ta' flowchart ta' app tipikament isegwi dan il-mudell:

  • L-ewwel, iġbor data dwar il-movimenti tal-utent waqt li jwettqu l-eżerċizzju.
  • Sussegwentement, iddetermina kemm kienu korretti jew żbaljati l-movimenti tal-utent.
  • Fl-aħħarnett, uri lill-utent permezz tal-interface liema żbalji setgħu għamlu.

Dritt issa, l-istandard fit-teknoloġija tal-pożi umani huwa Topoloġija COCO. It-topoloġija COCO hija magħmula minn 17-il punt ta' referenza madwar il-ġisem, li jvarjaw mill-wiċċ sad-dirgħajn sas-saqajn. Innota li COCO mhuwiex l-uniku qafas tal-pożi tal-ġisem tal-bniedem, sempliċement l-aktar wieħed użat komunement.

Dan it-tip ta 'proċess tipikament jagħmel użu minn teknoloġija ta' tagħlim tal-magni fil-fond għall-estrazzjoni tal-ġonot fl-istima tal-pożizzjoni tal-utent. Imbagħad juża algoritmi bbażati fuq il-ġeometrija biex jagħmel sens ta' dak li jinstab (janalizza pożizzjonijiet relattivi tal-ġonot misjuba). Filwaqt li tuża vidjo dinamiku bħala dejta tas-sors tagħha, is-sistema tista 'tuża serje ta' frejms, mhux biss immaġni waħda, biex taqbad il-punti ewlenin tagħha. Ir-riżultat huwa prestazzjoni ferm aktar preċiża tal-movimenti reali tal-utent peress li s-sistema tista 'tuża informazzjoni mill-frejms ta' maġenb biex issolvi kwalunkwe inċertezzi dwar il-pożizzjoni tal-ġisem tal-bniedem fil-qafas attwali.

Mit-tekniki attwali għall-użu tal-istima tal-pożi 3D fl-applikazzjonijiet tal-fitness, l-aktar approċċ preċiż huwa li l-ewwel jiġi applikat mudell biex jinstabu punti ewlenin 2D u sussegwentement jipproċessaw l-iskoperta 2D ma 'mudell ieħor biex jaqilbuhom fi tbassir ta' punti ewlenin 3D. 

Fil- riċerka aħna stazzjonati reċentement, intuża sors wieħed tal-vidjo, b'netwerks newrali konvoluzzjonali b'konvoluzzjonijiet temporali dilatati applikati biex iwettqu l-konverżjoni tal-punti ewlenin 2D -> 3D.

Wara li analizzajna l-mudelli li hemm bħalissa, iddeterminajna li VideoPose3D hija s-soluzzjoni l-aħjar imfassla għall-ħtiġijiet tal-biċċa l-kbira tal-applikazzjonijiet tal-fitness immexxija mill-AI. L-input li juża din is-sistema għandu jippermetti li jiġu skoperti sett 2D ta' punti ewlenin, fejn mudell, imħarreġ minn qabel fuq sett tad-dejta COCO 2017, jiġi applikat bħala a Detector 2D. 

Għall-tbassir l-aktar preċiż tal-pożizzjoni ta 'ġonta jew punt ewlieni attwali, VideoPose3D jista' juża frejms multipli fuq sekwenza qasira ta 'żmien biex jiġġenera informazzjoni dwar il-pożi 2D. 

Biex tkompli tingħata spinta lill-eżattezza tal-istima tal-pożi 3D, aktar minn kamera waħda tista 'tiġbor opinjonijiet alternattivi tal-utent li jwettaq l-istess eżerċizzju jew rutina. Innota, madankollu, li teħtieġ qawwa ta 'proċessar akbar kif ukoll arkitettura mudell speċjalizzata biex tittratta inputs multipli ta' stream video.

Riċentement, Google żvelati is-sistema BlazePose tagħhom, mudell orjentat lejn apparat mobbli għall-istima tal-pożi tal-bniedem billi jiżdied in-numru ta 'punti ewlenin analizzati għal 33, superset tas-sett ta' punti ewlenin COCO u żewġ topoloġiji oħra - BlazePalm u BlazeFace. Bħala riżultat, il-mudell BlazePose jista 'jipproduċi riżultati ta' tbassir tal-pożi konsistenti mal-mudelli tal-idejn u l-mudelli tal-wiċċ billi tartikola s-semantika tal-ġisem.

Kull komponent fi ħdan sistema ta 'stima tal-pożi tal-bniedem ibbażata fuq it-tagħlim tal-magni jeħtieġ li jkun mgħaġġel, u jieħu massimu ta' ftit millisekondi għal kull qafas għal mudelli ta 'sejbien u traċċar tal-pożi. 

Minħabba l-fatt li l-pipeline BlazePose (li jinkludi l-istima tal-pożi u l-komponenti tat-traċċar) irid jopera fuq varjetà ta’ apparati mobbli f’ħin reali, kull parti individwali tal-pipeline hija mfassla biex tkun komputazzjonali effiċjenti ħafna u taħdem f’200-1000 FPS .

Pożi stima u traċċar fil-video fejn mhux magħruf jekk u fejn il-persuna hija preżenti tipikament isir f'żewġ stadji. 

Fl-ewwel stadju, jitmexxa mudell ta 'skoperta ta' oġġetti biex jillokalizza l-preżenza ta 'bniedem jew biex jidentifika l-assenza tagħhom. Wara li l-persuna tkun ġiet skoperta, il-modulu ta 'stima tal-pożi jista' jipproċessa ż-żona lokalizzata li fiha l-persuna u jbassar il-pożizzjoni tal-punti ewlenin.

Żvantaġġ ta 'din is-setup huwa li teħtieġ kemm skoperta ta' oġġetti kif ukoll moduli ta 'stima tal-pożi biex jaħdmu għal kull qafas li jikkonsma riżorsi komputazzjonali żejda. L-awturi tal-BlazePose, madankollu, fasslu mod għaqlija kif jaqilbu din il-kwistjoni u jutilizzawha b'mod effiċjenti f'moduli oħra ta' skoperta ta' punti ewlenin bħal FaceMesh u, Idejn MediaPipe.

L-idea hija li modulu ta 'skoperta ta' oġġett (detector tal-wiċċ fil-każ ta 'BlazePose) jista' jintuża biss biex jibda t-traċċar tal-pożi fl-ewwel qafas filwaqt li l-intraċċar sussegwenti tal-persuna jista 'jsir bl-użu esklussiv tal-previżjonijiet tal-pożi wara xi allinjament tal-pożizzjoni, parametri li għalihom huma mbassra bl-użu tal-mudell ta' stima tal-pożi.

Il-wiċċ jipproduċi l-aktar sinjal b'saħħtu dwar il-pożizzjoni tat-torso għan-netwerk newrali, bħala riżultat tal-varjanza relattivament żgħira fid-dehra u kuntrast għoli fil-karatteristiċi tiegħu. Konsegwentement, huwa possibbli li tinħoloq sistema ta 'malajr u ta' spejjeż baxxi għall-iskoperta tal-pożi permezz ta 'serje ta' suppożizzjonijiet ġustifikabbli bbażati fuq l-idea li r-ras tal-bniedem tkun tista 'tinstab f'kull każ ta' użu personali.

Negħlbu l-Isfidi tal-Istima tal-Pożizzjoni tal-Bniedem

L-użu tal-istima tal-pożizzjoni fl-apps tal-fitness jiffaċċja l-isfida tal-volum kbir ta 'firxa ta' każi umani, pereżempju, il-mijiet ta 'asanas fil-biċċa l-kbira tal-korsijiet tal-yoga. 

Barra minn hekk, il-ġisem kultant jimblokka ċerti riġlejn kif jinqabdu minn kwalunkwe kamera partikolari, l-utenti jistgħu jilbsu ħwejjeġ varjati li joskuraw il-karatteristiċi tal-ġisem u l-dehra personali.

Filwaqt li tagħmel użu minn kwalunkwe mudelli mħarrġa minn qabel, innota li movimenti mhux tas-soltu tal-ġisem jew angoli strambi tal-kamera jistgħu jwasslu għal żbalji fl-istima tal-pożi tal-bniedem. Nistgħu nnaqqsu din il-problema sa ċertu punt billi nużaw dejta sintetika minn render tal-mudell tal-ġisem tal-bniedem 3D, jew billi nirfinaw b'dejta speċifika għad-dominju inkwistjoni.

L-aħbar tajba hija li nistgħu nevitaw jew intaffu l-maġġoranza tad-dgħufijiet. Iċ-ċavetta biex tagħmel dan hija li tagħżel id-dejta tat-taħriġ it-tajba u l-arkitettura tal-mudell. Barra minn hekk, it-tendenza tal-iżvilupp fil-qasam tat-teknoloġija tal-istima tal-pożi umani tissuġġerixxi li xi wħud mill-kwistjonijiet li niffaċċjaw issa se jkunu inqas rilevanti fis-snin li ġejjin.

L-aħħar kelma

L-istima tal-pożi tal-bniedem għandha varjetà ta’ użi potenzjali futuri barra l-qasam tal-apps tal-fitness u l-intraċċar tal-movimenti tal-bniedem, minn logħob għal animazzjoni għal Realtà Awmentata għar-robotika. Dan ma jirrappreżentax lista sħiħa tal-possibbiltajiet iżda jenfasizza xi wħud mill-oqsma l-aktar probabbli fejn l-istima tal-pożi umani se tikkontribwixxi għall-pajsaġġ diġitali tagħna.

Maksym huwa ħerqan li jikseb għarfien u esperjenza ġodda fix-Xjenza tad-Data u t-Tagħlim tal-Machine. Huwa partikolarment interessat fit-teknoloġiji bbażati fuq it-Tagħlim Profond u l-applikazzjoni tagħhom għal każijiet ta 'użu tan-negozju.