stub Tehisintellekti poosi hindamine treeningrakenduses – Unite.AI
Ühenda meile

Tervishoid

Tehisintellekti poosi hindamine fitnessirakenduses

mm

avaldatud

 on

Autor Maksym Tatariants, andmeteaduse insener aadressil MobiDev.

Inimese poosi hindamine viitab tehnoloogiale – üsna uuele, kuid samas kiiresti arenevale –, mis mängib fitnessi- ja tantsurakendustes olulist rolli, võimaldades meil paigutada digitaalset sisu reaalsesse maailma.

Lühidalt öeldes on inimese poosi hindamise kontseptsioon arvutinägemisel põhinev tehnoloogia, mis suudab tuvastada ja töödelda inimese kehahoiakut. Selle tehnoloogia kõige olulisem ja keskseim osa on inimkeha modelleerimine. Praegustes inimese poosi hindamissüsteemides on silmapaistvamad kolm kehamudelit – luustikupõhine, kontuuripõhine ja mahupõhine.

Skeletipõhine mudel

See mudel koosneb liigestest (võtmepunktidest), nagu põlved, pahkluud, randmed, küünarnukid, õlad ja keha jäsemete suund. See mudel on silmapaistev oma paindlikkuse poolest ja sobib sellisena nii 3- kui ka 2-mõõtmeliseks inimese poosi hindamiseks. 3-dimensioonilise modelleerimisega kasutab lahendus RGB-pilti ja leiab liigendite X-, Y- ja Z-koordinaadid. Kahemõõtmelise modelleerimisega on see sama RGB-pildi analüüs, kuid kasutab X- ja Y-koordinaate.

Kontuuripõhine mudel

See mudel kasutab ära kere ja jäsemete kontuure ning nende jämedat laiust. Siin võtab lahendus kereraami silueti ja renderdab kehaosad ristkülikute ja piiridena selles raamistikus.

Mahupõhine mudel

See mudel kasutab tavaliselt kolmemõõtmeliste skaneeringute seeriat, et jäädvustada keha kuju ja teisendada see kujundite ja geomeetriliste võrkude raamistikuks. Need kujundid loovad 3D-seeria poosidest ja kehakujutistest.

Kuidas 3D inimese poosi hindamine töötab

Fitnessirakendused tuginevad tavaliselt 3-mõõtmelisele inimese poosi hinnangule. Nende rakenduste puhul on seda parem, mida rohkem teavet inimese poosi kohta. Selle tehnika abil salvestab rakenduse kasutaja end treeningus või treeningrutiinis osalemise. Seejärel analüüsib rakendus kasutaja kehaliigutusi, pakkudes vigade või ebatäpsuste osas parandusi.

Seda tüüpi rakenduse vooskeem järgib tavaliselt järgmist mustrit.

  • Esiteks koguge andmeid kasutaja liigutuste kohta harjutuse sooritamise ajal.
  • Järgmisena tehke kindlaks, kui õiged või valed olid kasutaja liigutused.
  • Lõpuks näidake kasutajale liidese kaudu, milliseid vigu ta võis teha.

Praegu on inimpooside tehnoloogia standard COCO topoloogia. COCO topoloogia koosneb 17 maamärgist kogu kehas, alates näost kuni käteni ja lõpetades jalgadega. Pange tähele, et COCO ei ole ainus inimkeha poosi raamistik, vaid kõige sagedamini kasutatav.

Seda tüüpi protsessis kasutatakse kasutaja poosi hindamisel tavaliselt liigeste eraldamiseks sügavat masinõppetehnoloogiat. Seejärel kasutab see geomeetriapõhiseid algoritme, et mõista, mida see leiti (analüüsib tuvastatud liigeste suhtelisi asukohti). Kui kasutate lähteandmetena dünaamilist videot, saab süsteem võtmepunktide jäädvustamiseks kasutada kaadrite seeriat, mitte ainult ühte pilti. Tulemuseks on kasutaja tegelike liikumiste palju täpsem renderdamine, kuna süsteem saab kasutada naaberkaadritest pärinevat teavet, et lahendada inimkeha asukohaga seotud ebakindlus praeguses kaadris.

Praegustest 3D-pooside hindamise tehnikatest treeningurakendustes on kõige täpsem lähenemine esmalt rakendada mudelit 2D-võtmepunktide tuvastamiseks ja seejärel töödelda 2D-tuvastust teise mudeliga, et muuta need 3D-võtmepunktide prognoosideks. 

aasta teadustöö Hiljuti postitasime, kasutati ühte videoallikat, kus 2D -> 3D võtmepunkti teisendamiseks rakendati laiendatud ajalise keerdkäiguga konvolutsioonilisi närvivõrke.

Pärast praeguste mudelite analüüsimist jõudsime järeldusele, et VideoPose3D on enamiku tehisintellektiga juhitud treeningrakenduste vajadustele kõige paremini kohandatud lahendus. Seda süsteemi kasutav sisend peaks võimaldama tuvastada võtmepunktide 2D komplekti, kus mudelit, mis on eelnevalt koolitatud COCO 2017 andmestiku kohta, rakendatakse a 2D detektor. 

Praeguse liigendi või võtmepunkti asukoha kõige täpsemaks ennustamiseks võib VideoPose3D kasutada 2D poseerimise teabe genereerimiseks lühikese aja jooksul mitut kaadrit. 

3D-pooside hindamise täpsuse suurendamiseks võib rohkem kui üks kaamera koguda sama harjutust või rutiini sooritava kasutaja alternatiivseid vaatepunkte. Pange tähele, et mitme videovoo sisendiga toimetulemiseks on vaja suuremat töötlemisvõimsust ja spetsiaalset mudeliarhitektuuri.

Hiljuti Google Avalikustas nende süsteem BlazePose, mobiilseadmele orienteeritud mudel inimese poosi hindamiseks, suurendades analüüsitud võtmepunktide arvu 33-ni, COCO võtmepunktide komplekti superkomplekt ja kaks muud topoloogiat – BlazePalm ja BlazeFace. Selle tulemusel saab BlazePose'i mudel anda keha semantika liigendamise kaudu poosi ennustamise tulemusi, mis on kooskõlas käemudelite ja näomudelitega.

Masinõppel põhineva inimese poosi hindamissüsteemi iga komponent peab olema kiire, võttes poosi tuvastamise ja jälgimise mudelite jaoks aega maksimaalselt paar millisekundit kaadri kohta. 

Tulenevalt asjaolust, et BlazePose'i torujuhe (mis sisaldab positsioneerimise ja jälgimise komponente) peab töötama reaalajas mitmesugustes mobiilseadmetes, on torujuhtme iga üksik osa loodud olema arvutuslikult väga tõhus ja töötama 200–1000 kaadrit sekundis. .

Poosi hindamine ja jälgimine videos, kus pole teada, kas ja kus inimene viibib, tehakse tavaliselt kahes etapis. 

Esimeses etapis käivitatakse objekti tuvastamise mudel, et tuvastada inimese kohalolek või tuvastada tema puudumine. Pärast isiku tuvastamist saab poosihinnangu moodul töödelda isikut sisaldavat lokaliseeritud ala ja ennustada võtmepunktide asukohta.

Selle seadistuse negatiivne külg on see, et iga kaadri jaoks, mis kulutab täiendavaid arvutusressursse, on vaja nii objekti tuvastamise kui ka poosi hindamise mooduleid. BlazePose'i autorid töötasid aga välja nutika viisi, kuidas sellest probleemist mööda hiilida ja seda tõhusalt kasutada teistes võtmepunktide tuvastamise moodulites, näiteks FaceMesh ja MediaPipe käsi.

Idee seisneb selles, et objekti tuvastamise moodulit (BlazePose'i puhul näodetektorit) saab kasutada ainult pooside jälgimise käivitamiseks esimeses kaadris, samas kui inimese järgnevat jälgimist saab teha ainult poosi ennustuste abil pärast mõningast poosi joondust. parameetrid, mille jaoks ennustatakse poosihinnangu mudelit kasutades.

Nägu annab närvivõrgu jaoks kõige tugevama signaali torso asendi kohta, mis on tingitud välimuse suhteliselt väikesest variatsioonist ja selle omaduste suurest kontrastsusest. Järelikult on võimalik luua kiire ja madala üldkuluga süsteem poosi tuvastamiseks, kasutades mitmeid õigustatud eeldusi, mis põhinevad ideel, et inimese pea on igal isiklikul kasutamisel tuvastatav.

Inimese asendi hindamisega seotud väljakutsete ületamine

Pooside hindamise kasutamine fitnessirakendustes seisab silmitsi väljakutsega, mis on seotud inimpooside tohutu hulgaga, näiteks enamiku joogarežiimide sajad asanad. 

Lisaks blokeerib keha mõnikord teatud jäsemed, nagu mis tahes antud kaamera jäädvustab, kasutajad võivad kanda erinevaid rõivaid, mis varjavad keha tunnuseid ja isiklikku välimust.

Eelkoolitatud mudelite kasutamisel pidage meeles, et ebaharilikud kehaliigutused või kummalised kaameranurgad võivad põhjustada vead inimese asendi hindamisel. Saame seda probleemi teatud määral leevendada, kasutades sünteetilisi andmeid inimkeha 3D-mudeli renderdamisest või täpsustades kõnealuse domeeni spetsiifilisi andmeid.

Hea uudis on see, et saame enamikku nõrku külgi vältida või neid leevendada. Selle võti on õigete treeningandmete ja mudeliarhitektuuri valimine. Lisaks viitab arengutendents inimese poosi hindamise tehnoloogia valdkonnas sellele, et mõned probleemid, millega praegu silmitsi seisame, on lähiaastatel vähem olulised.

Viimane sõna

Inimese poosi hindamine hõlmab mitmesuguseid potentsiaalseid tulevasi kasutusvõimalusi väljaspool fitnessirakenduste ja inimeste liikumiste jälgimise valdkonda, alates mängimisest ja animatsioonist kuni liitreaalsuse ja robootikani. See ei kujuta endast täielikku võimaluste loetelu, kuid toob esile mõned kõige tõenäolisemad valdkonnad, kus inimese poosi hindamine aitab kaasa meie digitaalsele maastikule.

Maksym soovib saada andmeteaduse ja masinõppe vallas uusi teadmisi ja kogemusi. Teda huvitavad eelkõige süvaõppel põhinevad tehnoloogiad ja nende rakendamine ärilistel kasutusjuhtudel.