tynkä AI-asennon arviointi kuntosovelluksessa - Unite.AI
Liity verkostomme!

Terveydenhuolto

AI-asennon arviointi kuntosovelluksessa

mm

Julkaistu

 on

Kirjoittaja Maksym Tatariants, tietotekniikan insinööri osoitteessa MobiDev.

Ihmisen asennonarviointi viittaa tekniikkaan – melko uuteen, mutta kuitenkin nopeasti kehittyvään – jolla on merkittävä rooli kuntoilu- ja tanssisovelluksissa ja jonka avulla voimme sijoittaa digitaalista sisältöä todellisen maailman yläpuolelle.

Lyhyesti sanottuna ihmisen asennon arvioinnin käsite on tietokonenäköön perustuva tekniikka, joka pystyy havaitsemaan ja käsittelemään ihmisen asennon. Tämän tekniikan tärkein ja keskeisin osa on ihmiskehon mallinnus. Nykyisissä ihmisen asennonarviointijärjestelmissä kolme vartalomallia ovat näkyvin – luurankopohjainen, ääriviivapohjainen ja tilavuuspohjainen.

Luurankoon perustuva malli

Tämä malli koostuu joukosta niveliä (avainpisteitä), kuten polvet, nilkat, ranteet, kyynärpäät, olkapäät ja kehon raajojen suunta. Tämä malli on huomattava joustavuudestaan, ja sellaisenaan se sopii sekä 3- että 2-ulotteiseen ihmisen asennon estimointiin. Kolmiulotteisen mallinnuksen avulla ratkaisu käyttää RGB-kuvaa ja löytää liitosten X-, Y- ja Z-koordinaatit. 3-ulotteisessa mallintamisessa se on sama RGB-kuvan analyysi, mutta käyttämällä X- ja Y-koordinaatteja.

Ääriviivaan perustuva malli

Tämä malli hyödyntää vartalon ja raajojen muotoja sekä niiden karkeaa leveyttä. Tässä ratkaisu ottaa rungon siluetin ja esittää kehon osat suorakulmioina ja rajojen sisällä.

Volyymipohjainen malli

Tämä malli käyttää yleensä sarjaa 3-ulotteisia skannauksia kehon muodon kaappaamiseen ja muuntaa sen muotojen ja geometristen verkkojen kehykseksi. Nämä muodot luovat 3D-sarjan asentoja ja kehon esityksiä.

Kuinka 3D-ihmisasennon arviointi toimii

Kuntoilusovellukset luottavat yleensä kolmiulotteiseen ihmisen asentoarvioon. Näille sovelluksille mitä enemmän tietoa ihmisen asennosta, sitä parempi. Tällä tekniikalla sovelluksen käyttäjä tallentaa itsensä osallistuvan harjoitukseen tai harjoitusrutiiniin. Sovellus analysoi sitten käyttäjän kehon liikkeet ja tarjoaa korjauksia virheisiin tai epätarkkuuksiin.

Tämän tyyppisen sovelluksen vuokaavio noudattaa yleensä tätä kaavaa:

  • Kerää ensin tietoa käyttäjän liikkeistä harjoituksen suorittamisen aikana.
  • Määritä seuraavaksi, kuinka oikeita tai vääriä käyttäjän liikkeet olivat.
  • Lopuksi näytä käyttäjälle käyttöliittymän kautta, mitä virheitä hän on voinut tehdä.

Tällä hetkellä ihmisasentotekniikan standardi on COCO-topologia. COCO-topologia koostuu 17 maamerkistä ympäri kehoa kasvoista käsivarsiin jalkoihin. Huomaa, että COCO ei ole ainoa ihmiskehon asettelukehys, vaan se on yleisimmin käytetty.

Tämän tyyppisessä prosessissa käytetään tyypillisesti syvää koneoppimistekniikkaa nivelten poistamiseen käyttäjän asennon arvioinnissa. Sitten se käyttää geometriaan perustuvia algoritmeja löytääkseen käsityksen siitä, mitä se on löytänyt (analysoi havaittujen liitosten suhteelliset sijainnit). Kun järjestelmä käyttää dynaamista videota lähdetietonaan, se voi käyttää useita kehyksiä, ei vain yhtä kuvaa, kaapatakseen sen avainkohdat. Tuloksena on paljon tarkempi esitys käyttäjän todellisista liikkeistä, koska järjestelmä voi käyttää viereisten kehysten tietoja ratkaistakseen mahdolliset epävarmuudet, jotka liittyvät ihmiskehon asemaan nykyisessä kehyksessä.

Nykyisistä tekniikoista, joilla 3D-asennon arviointia käytetään kuntosovelluksissa, tarkin lähestymistapa on soveltaa ensin mallia 2D-avainpisteiden havaitsemiseen ja sen jälkeen käsitellä 2D-tunnistus toisella mallilla niiden muuntamiseksi 3D-avainpisteennusteiksi. 

In tutkimus julkaisimme äskettäin, käytettiin yhtä videolähdettä, jossa käytettiin konvoluutiohermoverkkoja laajennetuilla ajallisilla konvoluutioilla suorittamaan 2D -> 3D-avainpistemuunnos.

Analysoituamme tällä hetkellä saatavilla olevia malleja päätimme, että VideoPose3D on ratkaisu, joka on parhaiten räätälöity useimpien tekoälypohjaisten kuntoilusovellusten tarpeisiin. Tätä järjestelmää käyttävän syötteen pitäisi mahdollistaa 2D-avainpisteiden joukon havaitseminen, jossa mallia, joka on esikoulutettu COCO 2017 -tietojoukolle, sovelletaan a 2D ilmaisin. 

Nykyisen liitoksen tai avainpisteen sijainnin tarkimman ennustamiseksi VideoPose3D voi käyttää useita kehyksiä lyhyen ajanjakson aikana 2D-asentotietojen luomiseen. 

3D-asennon arvioinnin tarkkuuden parantamiseksi useampi kuin yksi kamera voi kerätä vaihtoehtoisia näkökulmia käyttäjästä, joka suorittaa samaa harjoitusta tai rutiinia. Huomaa kuitenkin, että se vaatii suurempaa prosessointitehoa sekä erikoistunutta malliarkkitehtuuria käsitelläkseen useita videovirtatuloja.

Äskettäin Google paljastettiin heidän BlazePose-järjestelmänsä, mobiililaitesuuntautunut malli ihmisen asennon arvioimiseksi lisäämällä analysoitujen avainpisteiden lukumäärää 33:een, superjoukko COCO-avainpistejoukosta ja kahdesta muusta topologiasta – BlazePalm ja BlazeFace. Tämän seurauksena BlazePose-malli voi tuottaa asennon ennustustuloksia, jotka ovat yhdenmukaisia ​​käsimallien ja kasvomallien kanssa artikuloimalla kehon semantiikan.

Jokaisen koneoppimiseen perustuvan ihmisen asennonarviointijärjestelmän komponentin on oltava nopea ja kestää enintään pari millisekuntia kehystä kohden asennon havaitsemiseen ja seurantaan. 

Koska BlazePose-putkilinjan (joka sisältää asennon estimointi- ja seurantakomponentit) on toimittava useissa mobiililaitteissa reaaliajassa, putkilinjan jokainen yksittäinen osa on suunniteltu laskennallisesti erittäin tehokkaaksi ja toimimaan 200-1000 FPS:n nopeudella. .

Asennon estimointi ja seuranta videossa, jossa ei tiedetä, onko henkilö paikalla ja missä, tehdään tyypillisesti kahdessa vaiheessa. 

Ensimmäisessä vaiheessa ajetaan esineentunnistusmalli ihmisen läsnäolon paikantamiseksi tai poissaolon tunnistamiseksi. Kun henkilö on havaittu, asennonestimointimoduuli voi käsitellä henkilön sisältävän paikallisen alueen ja ennustaa avainpisteiden sijainnin.

Tämän asennuksen haittapuolena on, että se vaatii sekä objektintunnistus- että asennonarviointimoduuleja toimiakseen jokaisessa kehyksessä, joka kuluttaa ylimääräisiä laskentaresursseja. BlazePosen kirjoittajat keksivät kuitenkin näppärän tavan kiertää tämä ongelma ja hyödyntää sitä tehokkaasti muissa avainpisteiden tunnistusmoduuleissa, kuten esim. FaceMesh ja MediaPipe käsi.

Ajatuksena on, että esineentunnistusmoduulia (BlazePosen tapauksessa kasvojentunnistin) voidaan käyttää vain asennonseurannan käynnistämiseen ensimmäisessä ruudussa, kun taas henkilön myöhempi seuranta voidaan tehdä käyttämällä yksinomaan asentoennusteita jonkin asennon kohdistamisen jälkeen. parametrit, joille ennustetaan asennon estimointimallilla.

Kasvot tuottavat hermoverkostolle voimakkaimman signaalin vartalon asennosta, mikä johtuu sen suhteellisen pienestä ulkonäön vaihtelusta ja ominaisuuksien suuresta kontrastista. Näin ollen on mahdollista luoda nopea, vähän ylikuormitettu järjestelmä asennon havaitsemiseen useiden perusteltujen oletusten perusteella, jotka perustuvat siihen ajatukseen, että ihmisen pää on paikannettavissa jokaisessa henkilökohtaisessa käyttötapauksessa.

Ihmisen asennon arvioinnin haasteiden voittaminen

Asennon arvioinnin käyttäminen kuntosovelluksissa kohtaa haasteen, joka liittyy ihmisten asentojen valtavaan määrään, esimerkiksi useimpien jooga-ohjelmien satojen asanojen määrä. 

Lisäksi vartalo joskus peittää tietyt raajat minkä tahansa kameran tallentamana, ja käyttäjät voivat käyttää erilaisia ​​asuja, jotka peittävät kehon piirteet ja henkilökohtaisen ulkonäön.

Kun käytät valmiiksi koulutettuja malleja, huomaa, että epätavalliset kehon liikkeet tai oudot kamerakulmat voivat johtaa virheitä ihmisen asennon arvioinnissa. Voimme lieventää tätä ongelmaa jossain määrin käyttämällä synteettistä dataa 3D-ihmiskehomallin renderöinnistä tai hienosäätämällä kyseistä aluetta koskevaa dataa.

Hyvä uutinen on, että voimme välttää suurimman osan heikkouksista tai lieventää niitä. Avain tähän on oikean harjoitusdatan ja malliarkkitehtuurin valitseminen. Lisäksi kehityssuuntaus ihmisen asennon arviointiteknologian alalla viittaa siihen, että jotkin nyt kohtaamistamme ongelmista ovat vähemmän tärkeitä tulevina vuosina.

Viimeinen sana

Ihmisen asentoarvioinnissa on monia mahdollisia tulevaisuuden käyttötarkoituksia kuntosovellusten ja ihmisen liikkeiden seurannan ulkopuolella, pelaamisesta animaatioon ja lisättyyn todellisuuteen robotiikkaan. Tämä ei edusta täydellistä luetteloa mahdollisuuksista, mutta korostaa joitakin todennäköisimpiä alueita, joilla ihmisen asennonarviointi vaikuttaa digitaaliseen maisemaan.

Maksym haluaa saada uusia oivalluksia ja kokemuksia tietotieteestä ja koneoppimisesta. Hän on erityisen kiinnostunut Deep Learning -pohjaisista teknologioista ja niiden soveltamisesta yrityskäyttöön.