stubbur AI stellingamat í líkamsræktarforriti - Unite.AI
Tengja við okkur

Heilbrigðiskerfið

AI stellingarmat í líkamsræktarforriti

mm

Útgefið

 on

Eftir Maksym Tatariants, Data Science Engineer hjá MobiDev.

Mannleg líkamsbeiting vísar til tækni – frekar nýrra, en þróast hratt – sem á mikilvægan þátt í líkamsræktar- og dansforritum, sem gerir okkur kleift að setja stafrænt efni yfir raunheiminn.

Í stuttu máli má segja að hugmyndin um mat á stellingum manna er tækni sem byggir á tölvusjón sem getur greint og unnið úr líkamsstöðu. Mikilvægasti og miðlægasti hluti þessarar tækni er líkanagerð mannslíkamans. Þrjú líkamslíkön eru mest áberandi innan núverandi mannlegrar líkamsstöðumatskerfis - beinagrind-undirstaða, útlínur og rúmmál.

Beinagrind-undirstaða líkan

Þetta líkan er byggt upp úr setti af liðum (lykilpunktum), eins og hnjám, ökklum, úlnliðum, olnbogum, öxlum og stefnu útlima líkamans. Þetta líkan er áberandi fyrir sveigjanleika þess og hentar sem slíkt fyrir bæði þrívídd og tvívídd mannleg stellingarmat. Með þrívíddarlíkönum notar lausnin RGB mynd og finnur X, Y og Z hnit liðamótanna. Með tvívíddarlíkönum er það sama greining á RGB mynd, en með því að nota X og Y hnitin.

Líkan sem byggir á útlínum

Þetta líkan nýtir útlínur bols og útlima líkamans, sem og grófa breidd þeirra. Hér tekur lausnin skuggamynd líkamans og gerir líkamshluta sem ferhyrninga og mörk innan þess ramma.

Módel byggt á magni

Þetta líkan notar almennt röð þrívíddar skanna til að fanga lögun líkamans og breytir því í ramma af formum og rúmfræðilegum möskva. Þessi form búa til þrívíddarröð af stellingum og líkamsmyndum.

Hvernig 3D mannlegt stellingarmat virkar

Líkamsræktarforrit hafa tilhneigingu til að treysta á 3-víddar mannlegu stellingarmat. Fyrir þessi forrit, því meiri upplýsingar um stellingu mannsins, því betra. Með þessari tækni mun notandi appsins skrá sig þegar hann tekur þátt í æfingu eða líkamsþjálfun. Forritið mun síðan greina líkamshreyfingar notandans og bjóða upp á leiðréttingar fyrir mistök eða ónákvæmni.

Þessi tegund af flæðiriti apps fylgir venjulega þessu mynstri:

  • Fyrst skaltu safna gögnum um hreyfingar notandans á meðan þeir framkvæma æfinguna.
  • Næst skaltu ákvarða hversu réttar eða rangar hreyfingar notandans voru.
  • Að lokum skaltu sýna notandanum í gegnum viðmótið hvaða mistök þeir kunna að hafa gert.

Núna er staðallinn í tækni fyrir mannlegar stellingar COCO staðfræði. COCO svæðisfræði samanstendur af 17 kennileitum um allan líkamann, allt frá andliti til handleggja til fóta. Athugaðu að COCO er ekki eini líkamsstellingarramminn, aðeins sá sem oftast er notaður.

Þessi tegund af ferli notar venjulega djúpa vélanámstækni til að draga úr liðum við mat á stellingu notandans. Það notar síðan reiknirit sem byggir á rúmfræði til að gera skilning á því sem það hefur fundið (greina hlutfallslega stöðu greindra liða). Með því að nota kraftmikið myndband sem upprunagögn getur kerfið notað röð ramma, ekki bara eina mynd, til að fanga lykilatriði þess. Niðurstaðan er mun nákvæmari flutningur á raunverulegum hreyfingum notandans þar sem kerfið getur notað upplýsingar frá aðliggjandi ramma til að leysa hvers kyns óvissu varðandi stöðu mannslíkamans í núverandi ramma.

Af núverandi aðferðum til að nota 3D stöðumat í líkamsræktarforritum er nákvæmasta aðferðin að nota fyrst líkan til að greina 2D lykilpunkta og síðan vinna úr 2D uppgötvuninni með öðru líkani til að breyta þeim í 3D lykilpunktaspár. 

Í rannsóknir við birtum nýlega, einn myndbandsuppspretta var notaður, með snúningstauganetum með útvíkkuðum tímasnúningum sem beitt var til að framkvæma 2D -> 3D lykilpunktabreytinguna.

Eftir að hafa greint módelin sem eru til staðar núna komumst við að því að VideoPose3D er lausnin sem er best sniðin að þörfum flestra gervigreindardrifna líkamsræktarforrita. Inntakið sem notar þetta kerfi ætti að gera kleift að greina 2D mengi lykilpunkta, þar sem líkan, fyrirfram þjálfað á COCO 2017 gagnasafni, er notað sem a 2D skynjari. 

Til að spá fyrir um stöðu núverandi liðs eða lykilpunkts sem nákvæmasta, getur VideoPose3D notað marga ramma á stuttum tímaröð til að búa til 2D stöðuupplýsingar. 

Til að auka enn frekar nákvæmni þrívíddarstaðamats geta fleiri en ein myndavél safnað öðrum sjónarhornum notanda sem framkvæmir sömu æfingu eða venju. Athugaðu samt að það krefst meiri vinnslukrafts sem og sérhæfðs líkanaarkitektúrs til að takast á við mörg myndbandstraumsinntak.

Nýlega Google kynnt BlazePose kerfið þeirra, farsímamiðað líkan til að meta mannlega stellingu með því að fjölga fjölda lykilpunkta sem greindir eru í 33, ofursett af COCO lyklapunktasettinu og tveimur öðrum staðfræði – BlazePalm og BlazeFace. Fyrir vikið getur BlazePose líkanið framleitt niðurstöður fyrir spá um stellingu í samræmi við handlíkön og andlitslíkön með því að móta merkingarfræði líkamans.

Hver hluti innan vélanámsbundins mannlegrar stöðumatskerfis þarf að vera hraður og tekur að hámarki nokkrar millisekúndur á hvern ramma til að greina stöðu og rekja líkön. 

Vegna þeirrar staðreyndar að BlazePose leiðsla (sem felur í sér mat á stöðu og rakningarhlutum) þarf að starfa á ýmsum farsímum í rauntíma, er hver einstakur hluti leiðslunnar hannaður til að vera mjög reiknihagkvæmur og keyra á 200-1000 FPS .

Stöðumat og rakning í myndbandinu þar sem ekki er vitað hvort og hvar viðkomandi er til staðar er venjulega gert í tveimur áföngum. 

Á fyrsta stigi er hlutgreiningarlíkan keyrt til að staðsetja nærveru manns eða til að bera kennsl á fjarveru þeirra. Eftir að manneskjan hefur fundist getur pósamatseiningin unnið úr staðbundnu svæði sem inniheldur viðkomandi og spáð fyrir um staðsetningu lykilpunktanna.

Gallinn við þessa uppsetningu er að það krefst bæði hlutgreiningar og stöðumatseiningar til að keyra fyrir hvern ramma sem eyðir auka reikniauðlindum. Höfundar BlazePose fundu hins vegar snjalla leið til að komast í kringum þetta mál og nýta það á skilvirkan hátt í öðrum lykilpunktagreiningareiningum eins og FaceMesh og MediaPipe Hand.

Hugmyndin er sú að hlutgreiningareining (andlitsskynjari ef um BlazePose er að ræða) er aðeins hægt að nota til að hefja stellinguna í fyrsta rammanum á meðan hægt er að rekja manneskjuna í kjölfarið með því að nota eingöngu stellingarspár eftir einhverja stellingu, færibreytur sem spáð er fyrir með því að nota stöðumatslíkanið.

Andlitið gefur sterkasta merkið um staðsetningu bolsins fyrir tauganetið, sem afleiðing af tiltölulega litlu útliti og mikilli birtuskilum í eiginleikum hans. Þar af leiðandi er hægt að búa til fljótlegt, lágt kostnaður kerfi til að greina stellingu með röð réttlætanlegra forsendna sem byggjast á þeirri hugmynd að mannshöfuðið sé hægt að staðsetja í hverju persónulegu tilviki.

Að sigrast á áskorunum við að meta líkamsstöðu

Að nota líkamsáætlanir í líkamsræktarforritum stendur frammi fyrir áskoruninni sem felst í því hversu mikið magn af stellingum manna er, til dæmis hundruð asanas í flestum jógameðferðum. 

Ennfremur mun líkaminn stundum loka ákveðnum útlimum eins og þeir eru teknir af hvaða myndavél sem er, notendur geta klæðst fjölbreyttum búningum sem hylja líkamseiginleika og persónulegt útlit.

Þegar þú notar fyrirfram þjálfaðar gerðir skaltu hafa í huga að óvenjulegar líkamshreyfingar eða undarleg myndavélarhorn geta leitt til villur í mati á mannlegri stellingu. Við getum mildað þetta vandamál að vissu marki með því að nota tilbúið gögn úr þrívíddarlíkönum fyrir mannslíkamann, eða með því að fínstilla gögn sem eru sértæk fyrir viðkomandi lén.

Góðu fréttirnar eru þær að við getum forðast eða dregið úr meirihluta veikleika. Lykillinn að því að gera það er að velja réttu þjálfunargögnin og líkanarkitektúrinn. Ennfremur bendir tilhneiging þróunar á sviði mannlegrar stöðumatstækni til þess að sum vandamálin sem við stöndum frammi fyrir núna verði minna viðeigandi á næstu árum.

Lokaorðið

Mat á mannlegum stellingum geymir margvíslega hugsanlega framtíðarnotkun utan svæðis líkamsræktarforrita og mælingar á hreyfingum manna, allt frá leikjum til hreyfimynda til aukins veruleika til vélfærafræði. Það táknar ekki fullan lista yfir möguleikana en vekur athygli á sumum af líklegustu svæðum þar sem mat á mannlegum stellingum mun stuðla að stafrænu landslagi okkar.

Maksym hefur mikinn áhuga á að öðlast nýja innsýn og reynslu í gagnavísindum og vélanámi. Hann hefur sérstakan áhuga á tækni sem byggir á Deep Learning og beitingu hennar í viðskiptatilvik.