Egészségügy
AI pózbecslés a fitnesz alkalmazásban
Írta: Maksym Tatariants, adattudományi mérnök, MobiDev.
Az emberi pózbecslés egy olyan technológiára utal – amely meglehetősen új, de gyorsan fejlődik –, amely jelentős szerepet játszik a fitnesz- és táncalkalmazásokban, lehetővé téve számunkra, hogy a digitális tartalmat a valós világ fölé helyezzük.
Röviden, az emberi pózbecslés fogalma egy számítógépes látás alapú technológia, amely képes észlelni és feldolgozni az emberi testtartást. Ennek a technológiának a legfontosabb és központi része az emberi test modellezése. Három testmodell a legszembetűnőbb a jelenlegi emberi pózbecslési rendszerekben – csontváz-alapú, kontúr-alapú és térfogat-alapú.
Csontváz alapú modell
Ez a modell ízületekből (kulcspontokból) áll, mint például a térd, a boka, a csukló, a könyök, a váll és a test végtagjainak tájolása. Ez a modell a rugalmasságáról nevezetes, és mint ilyen, alkalmas 3-dimenziós és 2-dimenziós emberi pózbecslésre is. A 3-dimenziós modellezéssel a megoldás RGB képet használ, és megkeresi az illesztések X, Y és Z koordinátáit. A 2-dimenziós modellezés ugyanaz, mint egy RGB-kép elemzése, de az X és Y koordináták használatával.
Kontúr alapú modell
Ez a modell kihasználja a törzs és a test végtagjainak körvonalait, valamint azok durva szélességét. Itt a megoldás a karosszériaváz sziluettjét veszi, és a testrészeket téglalapként és határvonalként jeleníti meg a kereten belül.
Kötet alapú modell
Ez a modell általában háromdimenziós szkenneléssorozatot használ a test alakjának rögzítésére, és alakzatok és geometriai hálók keretévé alakítására. Ezek a formák pózok és testábrázolások 3D-s sorozatát hozzák létre.
Hogyan működik a 3D emberi testhelyzet becslés
A fitnesz alkalmazások általában háromdimenziós emberi pózbecslésre támaszkodnak. Ezeknél az alkalmazásoknál minél több információ található az emberi testtartásról, annál jobb. Ezzel a technikával az alkalmazás felhasználója rögzíti magát egy gyakorlatban vagy edzésprogramban. Az alkalmazás ezt követően elemzi a felhasználó testmozgását, és kijavítja a hibákat vagy pontatlanságokat.
Az ilyen típusú alkalmazások folyamatábrája általában a következő mintát követi:
- Először is gyűjtsön adatokat a felhasználó mozgásáról a gyakorlat végrehajtása közben.
- Ezután határozza meg, hogy a felhasználó mozgása mennyire volt helyes vagy helytelen.
- Végül mutasd meg a felhasználónak a felületen keresztül, hogy milyen hibákat követhetett el.
Jelenleg az emberi póz technológia szabványa COCO topológia. A COCO topológia 17 tereptárgyból áll a testben, az arctól a karokon át a lábakig. Vegye figyelembe, hogy a COCO nem az egyetlen emberi testpóz keret, csupán a leggyakrabban használt.
Az ilyen típusú folyamatok jellemzően mély gépi tanulási technológiát használnak az ízületek eltávolítására a felhasználó pózának becsléséhez. Ezután geometria-alapú algoritmusokat alkalmaz, hogy megértse, mit talált (elemzi az észlelt illesztések relatív helyzetét). Miközben dinamikus videót használ forrásadatként, a rendszer több képkockát is használhat, nem csak egyetlen képet, hogy rögzítse kulcspontjait. Az eredmény a felhasználó valós mozgásának sokkal pontosabb megjelenítése, mivel a rendszer a szomszédos képkockákból származó információkat felhasználva feloldja az emberi test helyzetével kapcsolatos bizonytalanságokat az aktuális keretben.
A 3D-s pózbecslés fitnesz alkalmazásokban való használatának jelenlegi technikái közül a legpontosabb megközelítés az, ha először egy modellt alkalmazunk a 2D kulcspontok észlelésére, majd a 2D észlelést egy másik modellel dolgozzuk fel, hogy azokat 3D kulcspont-előrejelzésekké alakítsuk.
A kutatás a közelmúltban közzétettük, egyetlen videóforrást használtak, a 2D -> 3D kulcspont konverzió végrehajtásához dilatált időbeli konvolúciójú konvolúciós neurális hálózatokat alkalmaztak.
A jelenleg rendelkezésre álló modellek elemzése után megállapítottuk, hogy a VideoPose3D a legtöbb mesterséges intelligencia által vezérelt fitneszalkalmazás igényeihez legjobban szabott megoldás. A rendszert használó bemenetnek lehetővé kell tennie a kulcspontok 2D-s halmazának észlelését, ahol a COCO 2017 adatkészletre előre betanított modellt alkalmaznak a 2D detektor.
Az aktuális ízület vagy kulcspont helyzetének legpontosabb előrejelzéséhez a VideoPose3D több képkockát is felhasználhat rövid időn belül a 2D pózinformáció létrehozásához.
A 3D-s pózbecslés pontosságának további növelése érdekében egynél több kamera képes összegyűjteni az ugyanazt a gyakorlatot vagy rutint végző felhasználó alternatív nézőpontjait. Ne feledje azonban, hogy nagyobb feldolgozási teljesítményre, valamint speciális modellarchitektúrára van szükség a több videofolyam bemenet kezelésére.
Nemrégiben a Google bemutatta BlazePose rendszerük, egy mobileszköz-orientált modell az emberi póz becslésére az elemzett kulcspontok számának 33-ra növelésével, a COCO kulcspontkészlet szuperkészlete és két másik topológia – a BlazePalm és a BlazeFace. Ennek eredményeként a BlazePose modell a testszemantika artikulálásával a kézmodellekkel és arcmodellekkel összhangban lévő póz-előrejelzési eredményeket produkálhat.
A gépi tanuláson alapuló emberi pózbecslő rendszer minden összetevőjének gyorsnak kell lennie, és képkockánként legfeljebb néhány milliszekundumot vesz igénybe a pózészlelési és -követési modellekhez.
Tekintettel arra a tényre, hogy a BlazePose pipeline (amely magában foglalja a pózbecslést és a nyomkövető komponenseket) számos mobileszközön kell, hogy működjön valós időben, a csővezeték minden egyes részét úgy tervezték, hogy számítási szempontból nagyon hatékony legyen, és 200-1000 FPS sebességgel működjön. .
A pózbecslés és a követés a videóban, ahol nem ismert, hogy a személy jelen van-e, és hol van, általában két szakaszban történik.
Az első szakaszban egy objektumészlelési modellt futtatnak az ember jelenlétének vagy hiányának azonosítására. A személy észlelése után a pózbecslő modul képes feldolgozni a személyt tartalmazó lokalizált területet, és megjósolni a kulcspontok helyzetét.
Ennek a beállításnak az a hátránya, hogy objektumészlelési és pózbecslő modulokra is szükség van ahhoz, hogy minden olyan keretnél futhassanak, amely extra számítási erőforrásokat fogyaszt. A BlazePose szerzői azonban kidolgoztak egy okos módszert a probléma megkerülésére és hatékony felhasználására más kulcspont-észlelési modulokban, mint pl. FaceMesh és a MediaPipe kéz.
Az ötlet az, hogy egy tárgyfelismerő modul (BlazePose esetében arcdetektor) csak a pózkövetés elindítására használható az első képkockában, míg a személy későbbi nyomon követése kizárólag a póz-előrejelzések segítségével történhet némi póz-igazítás után. paramétereket, amelyekre a pózbecslési modell segítségével előre jelezzük.
A törzs helyzetét illetően az arc adja a legerősebb jelet a neurális háló számára, a megjelenés viszonylag kis eltérése és a jellemzői nagy kontrasztja következtében. Következésképpen lehetőség nyílik egy gyors, alacsony rezgésszámú rendszer létrehozására a pózészleléshez, számos igazolható feltételezés alapján, amelyek azon az elgondoláson alapulnak, hogy az emberi fej minden személyes használati esetben lokalizálható lesz.
Az emberi pózbecslés kihívásainak leküzdése
A pózbecslés használata a fitneszalkalmazásokban szembesül az emberi pózok óriási mennyiségével, például a legtöbb jógakúrában a több száz ászanával.
Ezenkívül a test időnként blokkol bizonyos végtagokat, ahogyan az adott kamera rögzíti, a felhasználók különféle ruhákat viselhetnek, amelyek elfedik a test jellemzőit és a személyes megjelenést.
Bármilyen előre kiképzett modell használatakor vegye figyelembe, hogy szokatlan testmozgások vagy furcsa kameraállások vezethetnek hibák az emberi testhelyzet becslésében. Ezt a problémát bizonyos mértékig mérsékelhetjük egy 3D-s emberi test modellből származó szintetikus adatok felhasználásával, vagy a kérdéses tartományra jellemző adatok finomhangolásával.
A jó hír az, hogy a legtöbb gyengeséget elkerülhetjük vagy enyhíthetjük. Ennek kulcsa a megfelelő képzési adatok és modellarchitektúra kiválasztása. Ezen túlmenően, az emberi pózbecslési technológia terén tapasztalható fejlődési tendencia azt sugallja, hogy egyes problémák, amelyekkel most szembesülünk, kevésbé lesznek relevánsak a következő években.
Az utolsó szó
Az emberi póz becslése számos lehetséges jövőbeni felhasználási lehetőséget rejt magában a fitneszalkalmazásokon és az emberi mozgások nyomon követésén kívül, a játéktól az animáción át a kiterjesztett valóságon át a robotikáig. Ez nem jelenti a lehetőségek teljes listáját, de rávilágít néhány olyan területre, ahol az emberi pózbecslés hozzájárulhat digitális környezetünkhöz.