stub AI pozos įvertinimas kūno rengybos programoje – Unite.AI
Susisiekti su mumis

Sveikatos apsauga

AI pozos įvertinimas kūno rengybos programoje

mm

paskelbta

 on

Maksym Tatariants, duomenų mokslų inžinierius MobiDev.

Žmogaus pozos įvertinimas reiškia technologiją – gana naują, tačiau greitai besivystančią – kuri atlieka svarbų vaidmenį kūno rengybos ir šokių programose, leidžiančią skaitmeninį turinį išdėstyti realiame pasaulyje.

Trumpai tariant, žmogaus pozos įvertinimo sąvoka yra kompiuterine vizija pagrįsta technologija, galinti aptikti ir apdoroti žmogaus laikyseną. Svarbiausia ir centrinė šios technologijos dalis yra žmogaus kūno modeliavimas. Dabartinėse žmogaus pozos vertinimo sistemose ryškiausi yra trys kūno modeliai – skeleto, kontūro ir tūrio pagrindu.

Skeleto modelis

Šis modelis sudarytas iš sąnarių (pagrindinių taškų), pvz., kelių, kulkšnių, riešų, alkūnių, pečių ir kūno galūnių orientacijos, rinkinio. Šis modelis pasižymi savo lankstumu, todėl tinka tiek trimačiam, tiek dvimačiui žmogaus pozos įvertinimui. Naudojant 3 dimensijų modeliavimą, sprendimas naudoja RGB vaizdą ir randa jungčių X, Y ir Z koordinates. Naudojant dvimatį modeliavimą, tai ta pati RGB vaizdo analizė, bet naudojant X ir Y koordinates.

Kontūru pagrįstas modelis

Šiame modelyje išnaudojami kūno liemens ir galūnių kontūrai bei grubus jų plotis. Čia sprendimas paima korpuso rėmo siluetą ir perteikia kūno dalis kaip stačiakampius ir ribas toje sistemoje.

Apimties modelis

Šiame modelyje paprastai naudojama 3 dimensijų skenavimų serija, skirta užfiksuoti kūno formą ir paversti ją formų ir geometrinių tinklelių sistema. Šios formos sukuria 3D pozų ir kūno atvaizdų seriją.

Kaip veikia 3D žmogaus pozos įvertinimas

Fitneso programos dažniausiai remiasi 3 dimensijos žmogaus pozos įvertinimu. Šiose programose kuo daugiau informacijos apie žmogaus pozą, tuo geriau. Naudodamas šią techniką, programėlės naudotojas įrašys, kaip dalyvauja mankštoje ar treniruočių rutinoje. Tada programėlė analizuos vartotojo kūno judesius, siūlydama klaidų ar netikslumų pataisymus.

Šio tipo programos struktūrinė schema paprastai yra tokia:

  • Pirmiausia surinkite duomenis apie naudotojo judesius jam atliekant pratimą.
  • Tada nustatykite, kiek teisingi ar neteisingi buvo vartotojo judesiai.
  • Galiausiai per sąsają parodykite vartotojui, kokias klaidas jis galėjo padaryti.

Šiuo metu žmogaus pozų technologijos standartas yra COCO topologija. COCO topologiją sudaro 17 orientyrų visame kūne, pradedant nuo veido iki rankų ir kojų. Atminkite, kad COCO nėra vienintelė žmogaus kūno pozų sistema, o tik dažniausiai naudojama.

Šio tipo procese paprastai naudojama gilaus mašininio mokymosi technologija, skirta ištraukti sąnarius, kad būtų galima įvertinti vartotojo pozą. Tada jis naudoja geometrija pagrįstus algoritmus, kad suprastų, kas rasta (analizuojama santykinė aptiktų jungčių padėtis). Naudodama dinaminį vaizdo įrašą kaip šaltinio duomenis, sistema gali naudoti daugybę kadrų, o ne tik vieną vaizdą, kad užfiksuotų pagrindinius taškus. Rezultatas yra daug tikslesnis tikrųjų naudotojo judesių atvaizdavimas, nes sistema gali naudoti informaciją iš gretimų kadrų, kad išspręstų bet kokius neaiškumus, susijusius su žmogaus kūno padėtimi dabartiniame kadre.

Iš dabartinių 3D pozos įvertinimo fitneso programose metodų tiksliausias būdas yra pirmiausia taikyti modelį 2D raktiniams taškams aptikti, o vėliau apdoroti 2D aptikimą su kitu modeliu, kad jie būtų konvertuojami į 3D pagrindinių taškų prognozes. 

Lauke tyrimas Neseniai paskelbėme, buvo naudojamas vienas vaizdo įrašo šaltinis su konvoliuciniais neuroniniais tinklais su išsiplėtusiais laiko posūkiais, skirtais 2D -> 3D raktinio taško konvertavimui.

Išanalizavę šiuo metu esančius modelius nustatėme, kad „VideoPose3D“ yra sprendimas, geriausiai pritaikytas daugumos AI valdomų kūno rengybos programų poreikiams. Šią sistemą naudojanti įvestis turėtų leisti aptikti 2D pagrindinių taškų rinkinį, kur modelis, iš anksto parengtas naudoti COCO 2017 duomenų rinkinį, taikomas kaip a 2D detektorius. 

Kad būtų galima tiksliausiai nuspėti esamo jungties ar pagrindinio taško padėtį, „VideoPose3D“ gali naudoti kelis kadrus per trumpą laiko seką, kad sugeneruotų 2D pozos informaciją. 

Siekiant dar labiau padidinti 3D pozos įvertinimo tikslumą, daugiau nei viena kamera gali surinkti alternatyvius vartotojo, atliekančio tą patį pratimą ar rutiną, požiūrius. Tačiau atminkite, kad norint apdoroti kelis vaizdo srauto įėjimus, reikia didesnės apdorojimo galios ir specializuotos modelio architektūros.

Neseniai „Google“ atidengtas jų sistema „BlazePose“, į mobilųjį įrenginį orientuotas modelis, skirtas įvertinti žmogaus pozą padidinant analizuojamų pagrindinių taškų skaičių iki 33, COCO raktinių taškų rinkinio superrinkinys ir dvi kitos topologijos – „BlazePalm“ ir „BlazeFace“. Dėl to BlazePose modelis gali pateikti pozos numatymo rezultatus, atitinkančius rankų modelius ir veido modelius, artikuliuodamas kūno semantiką.

Kiekvienas mašininiu mokymusi pagrįstos žmogaus pozos įvertinimo sistemos komponentas turi būti greitas, o pozos aptikimo ir stebėjimo modeliams vienam kadrui užtrukti ne daugiau kaip kelias milisekundes. 

Dėl to, kad BlazePose dujotiekis (į kurį įeina pozos įvertinimo ir sekimo komponentai) turi veikti įvairiuose mobiliuosiuose įrenginiuose realiuoju laiku, kiekviena atskira dujotiekio dalis sukurta taip, kad būtų labai efektyvi skaičiavimo požiūriu ir veiktų 200–1000 FPS greičiu. .

Pozos įvertinimas ir stebėjimas vaizdo įraše, kai nežinoma, ar asmuo yra ir kur jis yra, paprastai atliekamas dviem etapais. 

Pirmajame etape paleidžiamas objekto aptikimo modelis, siekiant nustatyti žmogaus buvimą arba jo nebuvimą. Po to, kai asmuo buvo aptiktas, pozos įvertinimo modulis gali apdoroti lokalizuotą sritį, kurioje yra asmuo, ir numatyti pagrindinių taškų padėtį.

Šios sąrankos trūkumas yra tas, kad kiekvienam kadrui, kuris sunaudoja papildomų skaičiavimo išteklių, reikia ir objekto aptikimo, ir pozos įvertinimo modulių. Tačiau „BlazePose“ autoriai sugalvojo protingą būdą, kaip išspręsti šią problemą ir efektyviai panaudoti kituose pagrindinių taškų aptikimo moduliuose, pvz. Veido tinklelis ir MediaPipe ranka.

Idėja yra ta, kad objektų aptikimo modulis (veido detektorius BlazePose atveju) gali būti naudojamas tik norint pradėti pozos sekimą pirmame kadre, o tolesnis asmens stebėjimas gali būti atliekamas naudojant tik pozos numatymą po tam tikro pozos suderinimo. parametrai, kuriems prognozuojami naudojant pozos įvertinimo modelį.

Veidas duoda stipriausią signalą apie liemens padėtį neuroniniam tinklui dėl santykinai mažo išvaizdos skirtumo ir didelio jo savybių kontrasto. Vadinasi, galima sukurti greitą, mažai kainuojančią pozos aptikimo sistemą, remiantis daugybe pagrįstų prielaidų, pagrįstų idėja, kad žmogaus galva bus aptikta kiekvienu asmeninio naudojimo atveju.

Žmogaus pozos įvertinimo iššūkių įveikimas

Naudojant pozų įvertinimą kūno rengybos programose, susiduriama su didžiuliu žmogaus pozų skaičiumi, pavyzdžiui, šimtais asanų daugelyje jogos režimų. 

Be to, kūnas kartais blokuoja tam tikras galūnes, kurias užfiksavo bet kuri kamera, naudotojai gali dėvėti įvairius drabužius, užtemdančius kūno bruožus ir asmeninę išvaizdą.

Naudodami bet kokius iš anksto paruoštus modelius, atkreipkite dėmesį, kad tai gali sukelti neįprastus kūno judesius ar keistus fotoaparato kampus žmogaus pozos vertinimo klaidos. Šią problemą tam tikru mastu galime sušvelninti naudodami sintetinius duomenis iš 3D žmogaus kūno modelio atvaizdavimo arba tiksliai suderindami duomenis, būdingus aptariamam domenui.

Geros naujienos yra tai, kad galime išvengti daugumos trūkumų arba juos sušvelninti. Svarbiausia yra pasirinkti tinkamus mokymo duomenis ir modelio architektūrą. Be to, žmogaus pozų nustatymo technologijos vystymosi tendencija rodo, kad kai kurios problemos, su kuriomis susiduriame dabar, ateinančiais metais bus ne tokios svarbios.

Paskutinis žodis

Žmogaus pozos įvertinimas apima daugybę galimų būsimų panaudojimo būdų už kūno rengybos programėlių ir žmogaus judesių stebėjimo ribų – nuo ​​žaidimų iki animacijos, papildytos realybės ir robotikos. Tai nėra visas galimybių sąrašas, tačiau išryškina kai kurias labiausiai tikėtinas sritis, kuriose žmogaus pozos įvertinimas prisidės prie mūsų skaitmeninio kraštovaizdžio.

Maksym nori įgyti naujų įžvalgų ir patirties duomenų mokslo ir mašininio mokymosi srityse. Jis ypač domisi giluminiu mokymusi pagrįstomis technologijomis ir jų pritaikymu verslo reikmėms.