stomp KI-posisieskatting in fiksheidstoepassing - Unite.AI
Verbinding met ons

Healthcare

KI-posisieskatting in fiksheidstoepassing

mm

Gepubliseer

 on

Deur Maksym Tatariants, Data Science Engineer by MobiDev.

Menslike poseskatting verwys na 'n tegnologie - redelik nuut, maar ontwikkel vinnig - wat 'n beduidende rol speel in fiksheids- en danstoepassings, wat ons in staat stel om digitale inhoud oor die regte wêreld te plaas.

Kortom, die konsep van menslike poseberaming is 'n rekenaarvisie-gebaseerde tegnologie wat menslike postuur kan opspoor en verwerk. Die belangrikste en sentrale deel van hierdie tegnologie is menslike liggaamsmodellering. Drie liggaamsmodelle is die mees prominente binne die huidige menslike poseskattingstelsels – skeletgebaseerd, kontoergebaseerd en volumegebaseer.

Skelet-gebaseerde model

Hierdie model bestaan ​​uit 'n stel gewrigte (sleutelpunte), soos knieë, enkels, polse, elmboë, skouers en die oriëntasie van die liggaam se ledemate. Hierdie model is opvallend vir sy buigsaamheid, en is as sodanig geskik vir beide 3-dimensionele en 2-dimensionele menslike pose skatting. Met 3-dimensionele modellering gebruik die oplossing 'n RGB-beeld en vind die gewrigte se X-, Y- en Z-koördinate. Met 2-dimensionele modellering is dit dieselfde ontleding van 'n RGB-beeld, maar met behulp van die X- en Y-koördinate.

Kontoer-gebaseerde model

Hierdie model maak gebruik van die kontoere van die bolyf en ledemate van die liggaam, sowel as hul growwe breedte. Hier neem die oplossing die liggaamsraam se silhoeët en gee liggaamsdele as reghoeke en grense binne daardie raamwerk weer.

Volume-gebaseerde model

Hierdie model gebruik gewoonlik 'n reeks 3-dimensionele skanderings om die vorm van die liggaam vas te vang en omskep dit in 'n raamwerk van vorms en geometriese maas. Hierdie vorms skep 'n 3D-reeks houdings en liggaamsvoorstellings.

Hoe 3D menslike houding skatting werk

Fiksheidstoepassings is geneig om op 3-dimensionele menslike poseskatting staat te maak. Vir hierdie toepassings, hoe meer inligting oor die menslike houding, hoe beter. Met hierdie tegniek sal die gebruiker van die toepassing hulself aanteken wanneer hulle aan 'n oefen- of oefenroetine deelneem. Die toepassing sal dan die gebruiker se liggaamsbewegings ontleed en regstellings vir foute of onakkuraathede aanbied.

Hierdie tipe toepassing se vloeidiagram volg tipies hierdie patroon:

  • Versamel eers data oor die gebruiker se bewegings terwyl hulle die oefening uitvoer.
  • Bepaal vervolgens hoe korrek of verkeerd die gebruiker se bewegings was.
  • Ten slotte, wys die gebruiker via die koppelvlak watter foute hulle moontlik gemaak het.

Op die oomblik is die standaard in menslike pose-tegnologie COCO topologie. COCO-topologie bestaan ​​uit 17 landmerke regoor die liggaam, wat wissel van die gesig tot die arms tot die bene. Let daarop dat COCO nie die enigste menslike liggaamsposisieraamwerk is nie, maar net die een wat die meeste gebruik word.

Hierdie tipe proses maak tipies gebruik van diep masjienleertegnologie vir die onttrekking van gewrigte om die gebruiker se houding te skat. Dit gebruik dan meetkunde-gebaseerde algoritmes om sin te maak van wat dit gevind is (ontleed relatiewe posisies van die bespeurde gewrigte). Terwyl 'n dinamiese video as sy brondata gebruik word, kan die stelsel 'n reeks rame gebruik, nie net 'n enkele prent nie, om sy sleutelpunte vas te vang. Die resultaat is 'n baie meer akkurate weergawe van die gebruiker se werklike bewegings aangesien die stelsel inligting van die aangrensende rame kan gebruik om enige onsekerhede rakende die posisie van die menslike liggaam in die huidige raam op te los.

Uit die huidige tegnieke vir die gebruik van 3D-posisieskatting in fiksheidstoepassings, is die mees akkurate benadering om eers 'n model toe te pas om 2D-sleutelpunte op te spoor en daarna die 2D-bespeuring met 'n ander model te verwerk om dit in 3D-sleutelpuntvoorspellings om te skakel. 

In die navorsing ons het onlangs geplaas, 'n enkele videobron is gebruik, met konvolusionele neurale netwerke met verwyde temporele konvolusies wat toegepas is om die 2D -> 3D sleutelpuntomskakeling uit te voer.

Nadat ons die modelle wat tans daar is, ontleed het, het ons vasgestel dat VideoPose3D die oplossing is wat die beste aangepas is vir die behoeftes van die meeste KI-gedrewe fiksheidstoepassings. Die invoer wat hierdie stelsel gebruik, moet toelaat dat 'n 2D-stel sleutelpunte opgespoor kan word, waar 'n model, vooraf opgelei op COCO 2017 datastel, toegepas word as 'n 2D detektor. 

Vir die mees presiese voorspelling van die posisie van 'n huidige gewrig of sleutelpunt, kan VideoPose3D verskeie rame oor 'n kort reeks tyd gebruik om 2D-posisie-inligting te genereer. 

Om die akkuraatheid van 3D-posisieskatting verder te verhoog, kan meer as een kamera alternatiewe standpunte van die gebruiker wat dieselfde oefening of roetine uitvoer, versamel. Let egter daarop dat dit groter verwerkingskrag sowel as gespesialiseerde modelargitektuur vereis om veelvuldige videostroominsette te hanteer.

Onlangs het Google onthul hul BlazePose-stelsel, 'n mobiele toestel-georiënteerde model vir die skatting van menslike pose deur die aantal sleutelpunte wat ontleed word na 33 te verhoog, 'n superstel van die COCO-sleutelpuntstel en twee ander topologieë - BlazePalm en BlazeFace. As gevolg hiervan kan die BlazePose-model posevoorspellingsresultate produseer wat ooreenstem met handmodelle en gesigmodelle deur liggaamssemantiek te artikuleer.

Elke komponent binne 'n masjienleer-gebaseerde menslike poseskattingstelsel moet vinnig wees, en neem 'n maksimum van 'n paar millisekondes per raam vir poseopsporing en -opsporingmodelle. 

As gevolg van die feit dat BlazePose-pyplyn (wat poseberaming en opsporingskomponente insluit) intyds op 'n verskeidenheid mobiele toestelle moet werk, is elke individuele deel van die pyplyn ontwerp om baie rekenkundig doeltreffend te wees en teen 200-1000 FPS te werk. .

Posskatting en opsporing in die video waar dit nie bekend is of en waar die persoon teenwoordig is nie, word tipies in twee fases gedoen. 

In die eerste stadium word 'n objekbespeuringsmodel uitgevoer om die teenwoordigheid van 'n mens op te spoor of om hul afwesigheid te identifiseer. Nadat die persoon opgespoor is, kan die poseskattingsmodule die gelokaliseerde area wat die persoon bevat verwerk en die posisie van die sleutelpunte voorspel.

'n Nadeel van hierdie opstelling is dat dit vereis dat beide objekbespeuring en poseskattingsmodules loop vir elke raam wat ekstra berekeningshulpbronne verbruik. Die skrywers van die BlazePose het egter 'n slim manier bedink om hierdie kwessie te omseil en dit doeltreffend in ander sleutelpunt-opsporingsmodules te gebruik, soos FaceMesh en MediaPyp Hand.

Die idee is dat 'n objekbespeuringsmodule (gesigdetektor in die geval van BlazePose) slegs gebruik kan word om die posenasporing in die eerste raam te begin, terwyl die daaropvolgende opsporing van die persoon gedoen kan word deur uitsluitlik die posevoorspellings te gebruik na 'n paar posebelyning, parameters waarvoor voorspel word deur gebruik te maak van die poseskattingsmodel.

Die gesig lewer die sterkste sein oor die bolyf se posisie vir die neurale netwerk, as gevolg van die relatief klein variasie in voorkoms en hoë kontras in sy kenmerke. Gevolglik is dit moontlik om 'n vinnige, lae-oorhoofse stelsel vir pose-opsporing te skep deur 'n reeks regverdigbare aannames wat gegrond is op die idee dat die menslike kop in elke persoonlike gebruiksgeval opgespoor kan word.

Oorkom uitdagings van menslike poseskatting

Die gebruik van poseskatting in fiksheidstoepassings staar die uitdaging in die gesig van die blote omvang van die reeks menslike houdings, byvoorbeeld die honderde asanas in die meeste joga-regimes. 

Verder sal die liggaam soms sekere ledemate blokkeer soos vasgevang deur enige gegewe kamera, gebruikers kan verskillende uitrustings dra wat liggaamskenmerke en persoonlike voorkoms verberg.

Terwyl u van vooraf opgeleide modelle gebruik maak, let daarop dat ongewone liggaamsbewegings of vreemde kamerahoeke kan lei tot foute in menslike poseskatting. Ons kan hierdie probleem tot 'n sekere mate versag deur sintetiese data van 'n 3D menslike liggaamsmodel-weergawe te gebruik, of deur fyn in te stel met data spesifiek vir die betrokke domein.

Die goeie nuus is dat ons die meeste swakhede kan vermy of versag. Die sleutel om dit te doen is om die regte opleidingsdata en modelargitektuur uit te kies. Verder dui die neiging van ontwikkeling op die gebied van menslike poseberamingstegnologie aan dat sommige van die kwessies wat ons nou in die gesig staar minder relevant sal wees in die komende jare.

Die laaste woord

Menslike pose-beraming bevat 'n verskeidenheid potensiële toekomstige gebruike buite die gebied van fiksheidstoepassings en die dop van menslike bewegings, van speletjies tot animasie tot Augmented Reality tot robotika. Dit verteenwoordig nie 'n volledige lys van die moontlikhede nie, maar beklemtoon wel sommige van die mees waarskynlike gebiede waar menslike poseskatting tot ons digitale landskap sal bydra.

Maksym is gretig om nuwe insigte en ervaring in datawetenskap en masjienleer op te doen. Hy stel veral belang in Deep Learning-gebaseerde tegnologieë en die toepassing daarvan op sakegebruiksgevalle.