csonk AI pózbecslés a fitneszalkalmazásban – Unite.AI
Kapcsolatba velünk

Egészségügy

AI pózbecslés a fitnesz alkalmazásban

mm

Közzététel:

 on

Írta: Maksym Tatariants, adattudományi mérnök, MobiDev.

Az emberi pózbecslés egy olyan technológiára utal – amely meglehetősen új, de gyorsan fejlődik –, amely jelentős szerepet játszik a fitnesz- és táncalkalmazásokban, lehetővé téve számunkra, hogy a digitális tartalmat a valós világ fölé helyezzük.

Röviden, az emberi pózbecslés fogalma egy számítógépes látás alapú technológia, amely képes észlelni és feldolgozni az emberi testtartást. Ennek a technológiának a legfontosabb és központi része az emberi test modellezése. Három testmodell a legszembetűnőbb a jelenlegi emberi pózbecslési rendszerekben – csontváz-alapú, kontúr-alapú és térfogat-alapú.

Csontváz alapú modell

Ez a modell ízületekből (kulcspontokból) áll, mint például a térd, a boka, a csukló, a könyök, a váll és a test végtagjainak tájolása. Ez a modell a rugalmasságáról nevezetes, és mint ilyen, alkalmas 3-dimenziós és 2-dimenziós emberi pózbecslésre is. A 3-dimenziós modellezéssel a megoldás RGB képet használ, és megkeresi az illesztések X, Y és Z koordinátáit. A 2-dimenziós modellezés ugyanaz, mint egy RGB-kép elemzése, de az X és Y koordináták használatával.

Kontúr alapú modell

Ez a modell kihasználja a törzs és a test végtagjainak körvonalait, valamint azok durva szélességét. Itt a megoldás a karosszériaváz sziluettjét veszi, és a testrészeket téglalapként és határvonalként jeleníti meg a kereten belül.

Kötet alapú modell

Ez a modell általában háromdimenziós szkenneléssorozatot használ a test alakjának rögzítésére, és alakzatok és geometriai hálók keretévé alakítására. Ezek a formák pózok és testábrázolások 3D-s sorozatát hozzák létre.

Hogyan működik a 3D emberi testhelyzet becslés

A fitnesz alkalmazások általában háromdimenziós emberi pózbecslésre támaszkodnak. Ezeknél az alkalmazásoknál minél több információ található az emberi testtartásról, annál jobb. Ezzel a technikával az alkalmazás felhasználója rögzíti magát egy gyakorlatban vagy edzésprogramban. Az alkalmazás ezt követően elemzi a felhasználó testmozgását, és kijavítja a hibákat vagy pontatlanságokat.

Az ilyen típusú alkalmazások folyamatábrája általában a következő mintát követi:

  • Először is gyűjtsön adatokat a felhasználó mozgásáról a gyakorlat végrehajtása közben.
  • Ezután határozza meg, hogy a felhasználó mozgása mennyire volt helyes vagy helytelen.
  • Végül mutasd meg a felhasználónak a felületen keresztül, hogy milyen hibákat követhetett el.

Jelenleg az emberi póz technológia szabványa COCO topológia. A COCO topológia 17 tereptárgyból áll a testben, az arctól a karokon át a lábakig. Vegye figyelembe, hogy a COCO nem az egyetlen emberi testpóz keret, csupán a leggyakrabban használt.

Az ilyen típusú folyamatok jellemzően mély gépi tanulási technológiát használnak az ízületek eltávolítására a felhasználó pózának becsléséhez. Ezután geometria-alapú algoritmusokat alkalmaz, hogy megértse, mit talált (elemzi az észlelt illesztések relatív helyzetét). Miközben dinamikus videót használ forrásadatként, a rendszer több képkockát is használhat, nem csak egyetlen képet, hogy rögzítse kulcspontjait. Az eredmény a felhasználó valós mozgásának sokkal pontosabb megjelenítése, mivel a rendszer a szomszédos képkockákból származó információkat felhasználva feloldja az emberi test helyzetével kapcsolatos bizonytalanságokat az aktuális keretben.

A 3D-s pózbecslés fitnesz alkalmazásokban való használatának jelenlegi technikái közül a legpontosabb megközelítés az, ha először egy modellt alkalmazunk a 2D kulcspontok észlelésére, majd a 2D észlelést egy másik modellel dolgozzuk fel, hogy azokat 3D kulcspont-előrejelzésekké alakítsuk. 

A kutatás a közelmúltban közzétettük, egyetlen videóforrást használtak, a 2D -> 3D kulcspont konverzió végrehajtásához dilatált időbeli konvolúciójú konvolúciós neurális hálózatokat alkalmaztak.

A jelenleg rendelkezésre álló modellek elemzése után megállapítottuk, hogy a VideoPose3D a legtöbb mesterséges intelligencia által vezérelt fitneszalkalmazás igényeihez legjobban szabott megoldás. A rendszert használó bemenetnek lehetővé kell tennie a kulcspontok 2D-s halmazának észlelését, ahol a COCO 2017 adatkészletre előre betanított modellt alkalmaznak a 2D detektor. 

Az aktuális ízület vagy kulcspont helyzetének legpontosabb előrejelzéséhez a VideoPose3D több képkockát is felhasználhat rövid időn belül a 2D pózinformáció létrehozásához. 

A 3D-s pózbecslés pontosságának további növelése érdekében egynél több kamera képes összegyűjteni az ugyanazt a gyakorlatot vagy rutint végző felhasználó alternatív nézőpontjait. Ne feledje azonban, hogy nagyobb feldolgozási teljesítményre, valamint speciális modellarchitektúrára van szükség a több videofolyam bemenet kezelésére.

Nemrégiben a Google bemutatta BlazePose rendszerük, egy mobileszköz-orientált modell az emberi póz becslésére az elemzett kulcspontok számának 33-ra növelésével, a COCO kulcspontkészlet szuperkészlete és két másik topológia – a BlazePalm és a BlazeFace. Ennek eredményeként a BlazePose modell a testszemantika artikulálásával a kézmodellekkel és arcmodellekkel összhangban lévő póz-előrejelzési eredményeket produkálhat.

A gépi tanuláson alapuló emberi pózbecslő rendszer minden összetevőjének gyorsnak kell lennie, és képkockánként legfeljebb néhány milliszekundumot vesz igénybe a pózészlelési és -követési modellekhez. 

Tekintettel arra a tényre, hogy a BlazePose pipeline (amely magában foglalja a pózbecslést és a nyomkövető komponenseket) számos mobileszközön kell, hogy működjön valós időben, a csővezeték minden egyes részét úgy tervezték, hogy számítási szempontból nagyon hatékony legyen, és 200-1000 FPS sebességgel működjön. .

A pózbecslés és a követés a videóban, ahol nem ismert, hogy a személy jelen van-e, és hol van, általában két szakaszban történik. 

Az első szakaszban egy objektumészlelési modellt futtatnak az ember jelenlétének vagy hiányának azonosítására. A személy észlelése után a pózbecslő modul képes feldolgozni a személyt tartalmazó lokalizált területet, és megjósolni a kulcspontok helyzetét.

Ennek a beállításnak az a hátránya, hogy objektumészlelési és pózbecslő modulokra is szükség van ahhoz, hogy minden olyan keretnél futhassanak, amely extra számítási erőforrásokat fogyaszt. A BlazePose szerzői azonban kidolgoztak egy okos módszert a probléma megkerülésére és hatékony felhasználására más kulcspont-észlelési modulokban, mint pl. FaceMesh és a MediaPipe kéz.

Az ötlet az, hogy egy tárgyfelismerő modul (BlazePose esetében arcdetektor) csak a pózkövetés elindítására használható az első képkockában, míg a személy későbbi nyomon követése kizárólag a póz-előrejelzések segítségével történhet némi póz-igazítás után. paramétereket, amelyekre a pózbecslési modell segítségével előre jelezzük.

A törzs helyzetét illetően az arc adja a legerősebb jelet a neurális háló számára, a megjelenés viszonylag kis eltérése és a jellemzői nagy kontrasztja következtében. Következésképpen lehetőség nyílik egy gyors, alacsony rezgésszámú rendszer létrehozására a pózészleléshez, számos igazolható feltételezés alapján, amelyek azon az elgondoláson alapulnak, hogy az emberi fej minden személyes használati esetben lokalizálható lesz.

Az emberi pózbecslés kihívásainak leküzdése

A pózbecslés használata a fitneszalkalmazásokban szembesül az emberi pózok óriási mennyiségével, például a legtöbb jógakúrában a több száz ászanával. 

Ezenkívül a test időnként blokkol bizonyos végtagokat, ahogyan az adott kamera rögzíti, a felhasználók különféle ruhákat viselhetnek, amelyek elfedik a test jellemzőit és a személyes megjelenést.

Bármilyen előre kiképzett modell használatakor vegye figyelembe, hogy szokatlan testmozgások vagy furcsa kameraállások vezethetnek hibák az emberi testhelyzet becslésében. Ezt a problémát bizonyos mértékig mérsékelhetjük egy 3D-s emberi test modellből származó szintetikus adatok felhasználásával, vagy a kérdéses tartományra jellemző adatok finomhangolásával.

A jó hír az, hogy a legtöbb gyengeséget elkerülhetjük vagy enyhíthetjük. Ennek kulcsa a megfelelő képzési adatok és modellarchitektúra kiválasztása. Ezen túlmenően, az emberi pózbecslési technológia terén tapasztalható fejlődési tendencia azt sugallja, hogy egyes problémák, amelyekkel most szembesülünk, kevésbé lesznek relevánsak a következő években.

Az utolsó szó

Az emberi póz becslése számos lehetséges jövőbeni felhasználási lehetőséget rejt magában a fitneszalkalmazásokon és az emberi mozgások nyomon követésén kívül, a játéktól az animáción át a kiterjesztett valóságon át a robotikáig. Ez nem jelenti a lehetőségek teljes listáját, de rávilágít néhány olyan területre, ahol az emberi pózbecslés hozzájárulhat digitális környezetünkhöz.

A Maksym nagyon szeretne új ismereteket és tapasztalatokat szerezni az adattudomány és a gépi tanulás terén. Különösen érdeklik a Deep Learning alapú technológiák és azok üzleti felhasználási esetekre való alkalmazása.