cung Vlerësimi i pozicionit të AI në aplikacionin e fitnesit - Unite.AI
Lidhu me ne

Healthcare

Vlerësimi i pozicionit të AI në aplikacionin e fitnesit

mm

Publikuar

 on

Nga Maksym Tatariants, Inxhinier i Shkencës së të Dhënave në MobiDev.

Vlerësimi i pozitës njerëzore i referohet një teknologjie – mjaft të re, por që evoluon shpejt – që luan një rol të rëndësishëm në aplikimet e fitnesit dhe kërcimit, duke na lejuar të vendosim përmbajtje dixhitale mbi botën reale.

Shkurtimisht, koncepti i vlerësimit të pozitës njerëzore është një teknologji e bazuar në vizionin kompjuterik në gjendje të zbulojë dhe përpunojë qëndrimin e njeriut. Pjesa më e rëndësishme dhe qendrore e kësaj teknologjie është modelimi i trupit të njeriut. Tre modele të trupit janë më të spikaturat brenda sistemeve aktuale të vlerësimit të pozitës njerëzore – të bazuara në skelet, të bazuara në kontur dhe të bazuara në vëllim.

Modeli i bazuar në skelet

Ky model përbëhet nga një grup kyçesh (pika kyçe), si gjunjët, kyçet, kyçet, bërrylat, shpatullat dhe orientimi i gjymtyrëve të trupit. Ky model shquhet për fleksibilitetin e tij dhe si i tillë është i përshtatshëm si për vlerësimin e pozitës njerëzore 3-dimensionale dhe 2-dimensionale. Me modelimin 3-dimensional, zgjidhja përdor një imazh RGB dhe gjen koordinatat X, Y dhe Z të nyjeve. Me modelimin 2-dimensional, është e njëjta analizë e një imazhi RGB, por duke përdorur koordinatat X dhe Y.

Modeli i bazuar në kontur

Ky model përdor konturet e bustit dhe gjymtyrëve të trupit, si dhe gjerësinë e tyre të përafërt. Këtu, zgjidhja merr siluetën e kornizës së trupit dhe i kthen pjesët e trupit si drejtkëndësha dhe kufij brenda atij kuadri.

Modeli i bazuar në vëllim

Ky model në përgjithësi përdor një seri skanimesh 3-dimensionale për të kapur formën e trupit dhe e shndërron atë në një kornizë formash dhe rrjetash gjeometrike. Këto forma krijojnë një seri 3D pozash dhe paraqitjesh trupore.

Si funksionon vlerësimi i pozitës njerëzore 3D

Aplikacionet e fitnesit priren të mbështeten në vlerësimin 3-dimensional të pozitës njerëzore. Për këto aplikacione, sa më shumë informacion mbi pozën njerëzore, aq më mirë. Me këtë teknikë, përdoruesi i aplikacionit do të regjistrojë veten duke marrë pjesë në një stërvitje ose rutinë stërvitjeje. Më pas aplikacioni do të analizojë lëvizjet e trupit të përdoruesit, duke ofruar korrigjime për gabime ose pasaktësi.

Diagrami i rrjedhës së këtij lloji të aplikacionit zakonisht ndjek këtë model:

  • Së pari, mblidhni të dhëna për lëvizjet e përdoruesit gjatë kryerjes së ushtrimit.
  • Më pas, përcaktoni se sa të sakta ose të pasakta ishin lëvizjet e përdoruesit.
  • Së fundi, tregojini përdoruesit nëpërmjet ndërfaqes se çfarë gabimesh mund të kenë bërë.

Tani për tani, standardi në teknologjinë e pozës njerëzore është Topologjia COCO. Topologjia COCO përbëhet nga 17 pika referimi në të gjithë trupin, duke filluar nga fytyra te krahët te këmbët. Vini re se COCO nuk është korniza e vetme e pozës së trupit të njeriut, thjesht ajo që përdoret më së shpeshti.

Ky lloj procesi zakonisht përdor teknologjinë e të mësuarit të makinës së thellë për nxjerrjen e nyjeve në vlerësimin e pozës së përdoruesit. Më pas përdor algoritme të bazuara në gjeometri për të kuptuar atë që është gjetur (analizoni pozicionet relative të nyjeve të zbuluara). Ndërsa përdor një video dinamike si të dhëna burimore, sistemi mund të përdorë një seri kornizash, jo vetëm një imazh të vetëm, për të kapur pikat e tij kyçe. Rezultati është një paraqitje shumë më e saktë e lëvizjeve reale të përdoruesit, pasi sistemi mund të përdorë informacionin nga kornizat ngjitur për të zgjidhur çdo pasiguri në lidhje me pozicionin e trupit të njeriut në kornizën aktuale.

Nga teknikat aktuale për përdorimin e vlerësimit të pozave 3D në aplikacionet e fitnesit, qasja më e saktë është që fillimisht të aplikohet një model për të zbuluar pikat kyçe 2D dhe më pas të përpunohet zbulimi 2D me një model tjetër për t'i kthyer ato në parashikime të pikave kyçe 3D. 

hulumtim Ne kemi postuar kohët e fundit, është përdorur një burim i vetëm video, me rrjete nervore konvolucionare me konvolucione kohore të zgjeruara të aplikuara për të kryer konvertimin e pikës kyçe 2D -> 3D.

Pas analizimit të modeleve aktualisht atje, ne përcaktuam se VideoPose3D është zgjidhja më e mirë e përshtatur për nevojat e shumicës së aplikacioneve të fitnesit të drejtuar nga AI. Hyrja duke përdorur këtë sistem duhet të lejojë zbulimin e një grupi 2D pikash kyçe, ku një model, i trajnuar paraprakisht në bazën e të dhënave COCO 2017, aplikohet si a Detektor 2D. 

Për parashikimin më të saktë të pozicionit të një nyjeje aktuale ose pikë kyçe, VideoPose3D mund të përdorë korniza të shumta gjatë një sekuence të shkurtër kohe për të gjeneruar informacion pozimi 2D. 

Për të rritur më tej saktësinë e vlerësimit të pozës 3D, më shumë se një kamera mund të mbledhë këndvështrime alternative të përdoruesit që kryen të njëjtin ushtrim ose rutinë. Vini re, megjithatë, se kërkon fuqi më të madhe përpunuese, si dhe arkitekturë të specializuar të modelit për t'u marrë me hyrje të shumta të transmetimit video.

Kohët e fundit, Google zbuloi sistemi i tyre BlazePose, një model i orientuar drejt pajisjes celulare për vlerësimin e pozës së njeriut duke rritur numrin e pikave kyçe të analizuara në 33, një superbashkësi e grupit të pikave kyçe COCO dhe dy topologji të tjera - BlazePalm dhe BlazeFace. Si rezultat, modeli BlazePose mund të prodhojë rezultate të parashikimit të pozave në përputhje me modelet e duarve dhe modelet e fytyrës duke artikuluar semantikën e trupit.

Çdo komponent brenda një sistemi të vlerësimit të pozitës njerëzore të bazuar në mësimin e makinerive duhet të jetë i shpejtë, duke marrë një maksimum prej disa milisekonda për kornizë për modelet e zbulimit dhe gjurmimit të pozave. 

Për shkak të faktit se gazsjellësi BlazePose (i cili përfshin vlerësimin e pozicionit dhe komponentët e gjurmimit) duhet të funksionojë në një sërë pajisjesh celulare në kohë reale, çdo pjesë individuale e tubacionit është projektuar të jetë shumë efikase nga ana llogaritëse dhe të funksionojë me 200-1000 FPS .

Vlerësimi i pozës dhe gjurmimi në video ku nuk dihet nëse dhe ku është i pranishëm personi bëhet zakonisht në dy faza. 

Në fazën e parë, përdoret një model i zbulimit të objekteve për të gjetur praninë e një njeriu ose për të identifikuar mungesën e tyre. Pasi personi të jetë zbuluar, moduli i vlerësimit të pozës mund të përpunojë zonën e lokalizuar që përmban personin dhe të parashikojë pozicionin e pikave kyçe.

Një dobësi e këtij konfigurimi është se kërkon që modulet e zbulimit të objekteve dhe të vlerësimit të pozave të funksionojnë për çdo kornizë që konsumon burime shtesë llogaritëse. Autorët e BlazePose, megjithatë, shpikën një mënyrë të zgjuar për të kapërcyer këtë problem dhe për ta përdorur atë në mënyrë efikase në module të tjera të zbulimit të pikave kyçe, si p.sh. FaceMesh Dora MediaPipe.

Ideja është që një modul i zbulimit të objekteve (detektor fytyre në rastin e BlazePose) mund të përdoret vetëm për të nisur gjurmimin e pozave në kuadrin e parë, ndërsa gjurmimi i mëpasshëm i personit mund të bëhet duke përdorur ekskluzivisht parashikimet e pozave pas një radhitjeje të pozicionit. parametrat për të cilët parashikohen duke përdorur modelin e vlerësimit të pozës.

Fytyra prodhon sinjalin më të fortë në lidhje me pozicionin e bustit për rrjetin nervor, si rezultat i ndryshimit relativisht të vogël në pamje dhe kontrastit të lartë në tiparet e tij. Rrjedhimisht, është e mundur të krijohet një sistem i shpejtë dhe me kosto të ulët për zbulimin e pozave përmes një sërë supozimesh të justifikueshme të bazuara në idenë se koka e njeriut do të jetë e lokalizuar në çdo rast përdorimi personal.

Tejkalimi i Sfidave të Vlerësimit të Pozës Njerëzore

Përdorimi i vlerësimit të pozave në aplikacionet e fitnesit përballet me sfidën e vëllimit të madh të gamës së pozave njerëzore, për shembull, qindra asanave në shumicën e regjimeve të jogës. 

Më tej, trupi ndonjëherë do të bllokojë gjymtyrë të caktuara siç janë kapur nga çdo aparat fotografik i caktuar, përdoruesit mund të veshin veshje të ndryshme duke errësuar tiparet e trupit dhe pamjen personale.

Ndërsa përdorni çdo model të trajnuar paraprakisht, vini re se lëvizjet e pazakonta të trupit ose këndet e çuditshme të kamerës mund të çojnë në gabime në vlerësimin e pozitës njerëzore. Ne mund ta zbusim këtë problem në një farë mase duke përdorur të dhëna sintetike nga një render 3D i modelit të trupit të njeriut, ose duke akorduar me të dhëna specifike për domenin në fjalë.

Lajmi i mirë është se ne mund të shmangim ose të zbusim shumicën e dobësive. Çelësi për ta bërë këtë është të zgjidhni të dhënat e duhura të trajnimit dhe arkitekturën e modelit. Më tej, tendenca e zhvillimit në fushën e teknologjisë së vlerësimit të pozitës njerëzore sugjeron që disa nga çështjet me të cilat përballemi tani do të jenë më pak të rëndësishme në vitet e ardhshme.

Fjala e fundit

Vlerësimi i pozitës njerëzore përmban një sërë përdorimesh të mundshme në të ardhmen jashtë zonës së aplikacioneve të fitnesit dhe gjurmimit të lëvizjeve njerëzore, nga lojërat në animacione, tek Realiteti i Shtuar te robotika. Kjo nuk përfaqëson një listë të plotë të mundësive, por nxjerr në pah disa nga fushat më të mundshme ku vlerësimi i pozitës njerëzore do të kontribuojë në peizazhin tonë dixhital.

Maksym është i prirur të fitojë njohuri dhe përvojë të re në Shkencën e të Dhënave dhe Mësimin e Makinerisë. Ai është veçanërisht i interesuar për teknologjitë e bazuara në mësimin e thellë dhe aplikimin e tyre në rastet e përdorimit të biznesit.