stubs AI pozas novērtējums fitnesa lietojumprogrammā — Unite.AI
Savienoties ar mums

Veselības aprūpe

AI pozas novērtējums fitnesa lietojumprogrammā

mm

Izdots

 on

Autors Maksims Tatarants, datu zinātnes inženieris, plkst MobiDev.

Cilvēka pozas novērtējums attiecas uz tehnoloģiju — diezgan jaunu, tomēr strauji attīstās —, kas spēlē nozīmīgu lomu fitnesa un deju lietojumos, ļaujot mums izvietot digitālo saturu reālajā pasaulē.

Īsāk sakot, cilvēka pozas noteikšanas jēdziens ir uz datora redzi balstīta tehnoloģija, kas spēj noteikt un apstrādāt cilvēka pozu. Šīs tehnoloģijas svarīgākā un centrālā daļa ir cilvēka ķermeņa modelēšana. Pašreizējās cilvēka pozas novērtēšanas sistēmās visizcilākie ir trīs ķermeņa modeļi — uz skeleta, kontūru un tilpuma.

Uz skeletu balstīts modelis

Šis modelis sastāv no locītavu (atslēgpunktu) kopas, piemēram, ceļgaliem, potītēm, plaukstu locītavām, elkoņiem, pleciem un ķermeņa ekstremitāšu orientācijas. Šis modelis ir ievērojams ar savu elastību un kā tāds ir piemērots gan 3-dimensiju, gan 2-dimensiju cilvēka pozas novērtēšanai. Izmantojot trīsdimensiju modelēšanu, risinājums izmanto RGB attēlu un atrod savienojumu X, Y un Z koordinātas. Izmantojot 3-dimensiju modelēšanu, tā ir tāda pati RGB attēla analīze, bet izmantojot X un Y koordinātas.

Uz kontūrām balstīts modelis

Šis modelis izmanto ķermeņa rumpja un ekstremitāšu kontūras, kā arī to aptuveno platumu. Šeit risinājums ņem virsbūves rāmja siluetu un atveido ķermeņa daļas kā taisnstūrus un robežas šajā ietvarā.

Uz apjomu balstīts modelis

Šajā modelī parasti tiek izmantota trīsdimensiju skenēšanas sērija, lai fiksētu ķermeņa formu un pārvērstu to par formu un ģeometrisku tīklu ietvaru. Šīs formas veido 3D pozu un ķermeņa attēlojumu sēriju.

Kā darbojas 3D cilvēka pozas novērtēšana

Fitnesa lietojumprogrammas parasti paļaujas uz trīsdimensiju cilvēka pozas novērtējumu. Šajās lietotnēs, jo vairāk informācijas par cilvēka pozu, jo labāk. Izmantojot šo paņēmienu, lietotnes lietotājs reģistrēs sevi, piedaloties vingrinājumā vai treniņu rutīnā. Pēc tam lietotne analizēs lietotāja ķermeņa kustības, piedāvājot kļūdu vai neprecizitātes labojumus.

Šāda veida lietotņu blokshēma parasti ir šāda:

  • Pirmkārt, apkopojiet datus par lietotāja kustībām, kamēr viņš veic vingrinājumu.
  • Pēc tam nosakiet, cik pareizas vai nepareizas bija lietotāja kustības.
  • Visbeidzot, izmantojot saskarni, parādiet lietotājam, kādas kļūdas viņš ir pieļāvis.

Šobrīd cilvēka pozu tehnoloģijas standarts ir COCO topoloģija. COCO topoloģiju veido 17 orientieri visā ķermenī, sākot no sejas līdz rokām līdz kājām. Ņemiet vērā, ka COCO nav vienīgais cilvēka ķermeņa pozu ietvars, tas ir tikai visbiežāk izmantotais.

Šāda veida procesā parasti tiek izmantota dziļās mašīnmācīšanās tehnoloģija, lai iegūtu locītavas, lai novērtētu lietotāja pozu. Pēc tam tas izmanto uz ģeometriju balstītus algoritmus, lai izprastu atrasto (analizētu atklāto savienojumu relatīvās pozīcijas). Izmantojot dinamisku video kā avota datus, sistēma var izmantot vairākus kadrus, nevis tikai vienu attēlu, lai tvertu tās galvenos punktus. Rezultāts ir daudz precīzāks lietotāja reālo kustību atveidojums, jo sistēma var izmantot informāciju no blakus esošajiem kadriem, lai atrisinātu visas neskaidrības par cilvēka ķermeņa stāvokli pašreizējā kadrā.

No pašreizējām metodēm 3D pozas noteikšanai fitnesa lietojumprogrammās visprecīzākā pieeja ir vispirms piemērot modeli, lai noteiktu 2D atslēgas punktus, un pēc tam apstrādāt 2D noteikšanu ar citu modeli, lai pārvērstu tos 3D atslēgas punktu prognozēs. 

Iekš pētniecība mēs nesen publicējām, tika izmantots viens video avots ar konvolucionāliem neironu tīkliem ar paplašinātām laika līknēm, kas tika lietoti, lai veiktu 2D -> 3D atslēgas punkta konvertēšanu.

Analizējot pašlaik pieejamos modeļus, mēs noskaidrojām, ka VideoPose3D ir risinājums, kas vislabāk pielāgots lielākajai daļai AI vadītu fitnesa lietojumprogrammu. Ievadei, kas izmanto šo sistēmu, ir jāļauj noteikt 2D atslēgas punktu kopu, kur modelis, kas iepriekš sagatavots COCO 2017 datu kopai, tiek izmantots kā a 2D detektors. 

Lai visprecīzāk prognozētu pašreizējā savienojuma vai atslēgas punkta pozīciju, VideoPose3D var izmantot vairākus kadrus īsā laika secībā, lai ģenerētu 2D pozas informāciju. 

Lai vēl vairāk uzlabotu 3D pozas novērtējuma precizitāti, vairāk nekā viena kamera var apkopot alternatīvus skatu punktus no lietotāja, kurš veic vienu un to pašu vingrinājumu vai rutīnu. Tomēr ņemiet vērā, ka tam ir nepieciešama lielāka apstrādes jauda, ​​kā arī specializēta modeļa arhitektūra, lai apstrādātu vairākas video straumes ievades.

Nesen Google Atklāja viņu BlazePose sistēma, uz mobilajām ierīcēm orientēts modelis cilvēka pozas novērtēšanai, palielinot analizēto atslēgas punktu skaitu līdz 33, COCO atslēgas punktu kopas superkopa un divas citas topoloģijas – BlazePalm un BlazeFace. Rezultātā BlazePose modelis var radīt pozas prognozēšanas rezultātus, kas atbilst roku modeļiem un sejas modeļiem, artikulējot ķermeņa semantiku.

Katram uz mašīnmācību balstītas cilvēka pozas novērtēšanas sistēmas komponentam ir jābūt ātram, aizņemot ne vairāk kā pāris milisekundes katrā kadrā pozas noteikšanas un izsekošanas modeļiem. 

Sakarā ar to, ka BlazePose konveijeram (kas ietver pozu aplēses un izsekošanas komponentus) ir jādarbojas dažādās mobilajās ierīcēs reāllaikā, katra atsevišķa cauruļvada daļa ir veidota tā, lai tā būtu ļoti skaitļošanas ziņā efektīva un darbotos ar ātrumu 200–1000 FPS. .

Pozas novērtējums un izsekošana videoklipā, ja nav zināms, vai un kur persona atrodas, parasti tiek veikta divos posmos. 

Pirmajā posmā tiek palaists objektu noteikšanas modelis, lai noteiktu cilvēka klātbūtni vai noteiktu viņa neesamību. Pēc personas noteikšanas pozas novērtēšanas modulis var apstrādāt lokalizēto apgabalu, kurā atrodas persona, un paredzēt atslēgas punktu atrašanās vietu.

Šīs iestatīšanas negatīvie aspekti ir tādi, ka katram kadram, kas patērē papildu skaitļošanas resursus, ir nepieciešami gan objektu noteikšanas, gan pozas novērtēšanas moduļi. Tomēr BlazePose autori ir izstrādājuši gudru veidu, kā apiet šo problēmu un efektīvi izmantot to citos atslēgas punktu noteikšanas moduļos, piemēram, FaceMesh un MediaPipe Roka.

Ideja ir tāda, ka objektu noteikšanas moduli (sejas detektoru BlazePose gadījumā) var izmantot tikai, lai sāktu pozas izsekošanu pirmajā kadrā, savukārt turpmāko personas izsekošanu var veikt, izmantojot tikai pozas prognozes pēc zināmas pozas izlīdzināšanas. parametri, kuriem tiek prognozēti, izmantojot pozas novērtēšanas modeli.

Seja rada spēcīgāko signālu par rumpja stāvokli neironu tīklam, pateicoties salīdzinoši nelielai izskata variācijai un lielajam kontrastam. Līdz ar to ir iespējams izveidot ātru, zemu izmaksu sistēmu pozu noteikšanai, izmantojot virkni attaisnojamu pieņēmumu, kuru pamatā ir ideja, ka cilvēka galva būs atrodama katrā personīgās lietošanas gadījumā.

Cilvēka pozas novērtēšanas izaicinājumu pārvarēšana

Pozu noteikšanas izmantošana fitnesa lietotnēs saskaras ar izaicinājumu, ko rada milzīgs cilvēku pozu klāsts, piemēram, simtiem asānu lielākajā daļā jogas režīmu. 

Turklāt ķermenis dažkārt bloķē noteiktas ekstremitātes, ko fiksējusi jebkura kamera, lietotāji var valkāt dažādus tērpus, kas aizsedz ķermeņa iezīmes un personīgo izskatu.

Izmantojot jebkurus iepriekš apmācītus modeļus, ņemiet vērā, ka neparastas ķermeņa kustības vai dīvaini kameras leņķi var izraisīt kļūdas cilvēka pozas novērtējumā. Mēs zināmā mērā varam mazināt šo problēmu, izmantojot sintētiskos datus no 3D cilvēka ķermeņa modeļa renderēšanas vai precizējot datus, kas raksturīgi konkrētajam domēnam.

Labā ziņa ir tā, ka mēs varam izvairīties no vairuma trūkumu vai tos mazināt. Galvenais, lai to izdarītu, ir izvēlēties pareizos apmācības datus un modeļa arhitektūru. Turklāt attīstības tendence cilvēka pozu noteikšanas tehnoloģiju jomā liecina, ka daži no jautājumiem, ar kuriem mēs saskaramies, turpmākajos gados būs mazāk aktuāli.

Pēdējais vārds

Cilvēka pozas novērtējums ietver dažādus iespējamos turpmākos lietojumus ārpus fitnesa lietotņu un cilvēku kustību izsekošanas jomas, sākot no spēlēm līdz animācijai, paplašinātajai realitātei un robotikai. Tas neatspoguļo pilnu iespēju sarakstu, bet izceļ dažas no visticamākajām jomām, kurās cilvēka pozas novērtējums veicinās mūsu digitālo ainavu.

Maksym vēlas gūt jaunus ieskatus un pieredzi datu zinātnē un mašīnmācībā. Viņu īpaši interesē Deep Learning balstītas tehnoloģijas un to pielietojums biznesa vajadzībām.