քոթուկ AI դիրքի գնահատում ֆիթնես հավելվածում - Unite.AI
Միացեք մեզ

Առողջապահություն

AI դիրքի գնահատում ֆիթնես հավելվածում

mm

Հրատարակված է

 on

Տվյալների գիտության ինժեներ Մաքսիմ Թաթարյանցի կողմից MobiDev.

Մարդու դիրքի գնահատումը վերաբերում է բավականին նոր, բայց արագ զարգացող տեխնոլոգիային, որը զգալի դեր է խաղում ֆիթնեսի և պարային հավելվածներում՝ թույլ տալով մեզ թվային բովանդակությունը տեղադրել իրական աշխարհում:

Մի խոսքով, մարդու դիրքի գնահատման հայեցակարգը համակարգչային տեսողության վրա հիմնված տեխնոլոգիա է, որը կարող է հայտնաբերել և մշակել մարդու կեցվածքը: Այս տեխնոլոգիայի ամենակարևոր և կենտրոնական մասը մարդու մարմնի մոդելավորումն է: Մարմնի երեք մոդելներ առավել ակնառու են մարդու կեցվածքի գնահատման ներկայիս համակարգերում՝ կմախքի վրա հիմնված, ուրվագծերի վրա և ծավալի վրա:

Կմախքի վրա հիմնված մոդել

Այս մոդելը կազմված է մի շարք հոդերից (առանցքային կետերից), ինչպիսիք են ծնկները, կոճերը, դաստակները, արմունկները, ուսերը և մարմնի վերջույթների կողմնորոշումը: Այս մոդելը աչքի է ընկնում իր ճկունությամբ, և որպես այդպիսին հարմար է ինչպես եռաչափ, այնպես էլ 3-չափ մարդու դիրքի գնահատման համար: Եռաչափ մոդելավորմամբ լուծումն օգտագործում է RGB պատկեր և գտնում է հոդերի X, Y և Z կոորդինատները: Երկչափ մոդելավորման դեպքում դա նույն RGB պատկերի վերլուծությունն է, բայց օգտագործելով X և Y կոորդինատները:

Եզրագծի վրա հիմնված մոդել

Այս մոդելը օգտագործում է մարմնի իրանի և վերջույթների ուրվագծերը, ինչպես նաև դրանց կոպիտ լայնությունը: Այստեղ լուծումը վերցնում է մարմնի շրջանակի ուրվագիծը և մարմնի մասերը դարձնում ուղղանկյուններ և սահմաններ այդ շրջանակում:

Ծավալի վրա հիմնված մոդել

Այս մոդելը սովորաբար օգտագործում է մի շարք եռաչափ սկանավորումներ՝ մարմնի ձևը ֆիքսելու և այն վերածելու ձևերի և երկրաչափական ցանցերի շրջանակի: Այս ձևերը ստեղծում են դիրքերի և մարմնի պատկերների 3D շարք:

Ինչպես է աշխատում մարդու դիրքի 3D գնահատումը

Ֆիթնես հավելվածները հակված են հիմնվել մարդու եռաչափ դիրքի գնահատման վրա: Այս հավելվածների համար որքան շատ տեղեկատվություն մարդու դիրքի մասին, այնքան լավ: Այս տեխնիկայի միջոցով հավելվածի օգտատերը կգրանցի, թե ինչպես է մասնակցում վարժությունների կամ մարզումների առօրյային: Հավելվածն այնուհետեւ կվերլուծի օգտատիրոջ մարմնի շարժումները՝ առաջարկելով ուղղումներ սխալների կամ անճշտությունների համար:

Այս տեսակի հավելվածի հոսքի գծապատկերը սովորաբար հետևում է այս օրինակին.

  • Նախ, հավաքեք տվյալներ օգտատիրոջ շարժումների մասին, երբ նրանք կատարում են վարժությունը:
  • Հաջորդը, որոշեք, թե որքանով էին ճիշտ կամ սխալ օգտագործողի շարժումները:
  • Վերջապես, ինտերֆեյսի միջոցով օգտագործողին ցույց տվեք, թե ինչ սխալներ կարող են թույլ տալ:

Հենց հիմա մարդկային դիրքի տեխնոլոգիայի ստանդարտն է COCO տոպոլոգիա. COCO տոպոլոգիան կազմված է 17 ուղենիշներից ամբողջ մարմնից՝ սկսած դեմքից մինչև ձեռքեր և ոտքեր: Նկատի ունեցեք, որ COCO-ն մարդու մարմնի կեցվածքի միակ շրջանակը չէ, այլ ամենից հաճախ օգտագործվողը:

Գործընթացի այս տեսակը սովորաբար օգտագործում է խորը մեքենայական ուսուցման տեխնոլոգիա՝ հոդերի արդյունահանման համար՝ օգտագործողի դիրքը գնահատելու համար: Այնուհետև այն օգտագործում է երկրաչափության վրա հիմնված ալգորիթմներ՝ պարզելու, թե ինչ է գտնվել (վերլուծել հայտնաբերված հոդերի հարաբերական դիրքերը): Դինամիկ տեսանյութը որպես աղբյուրի տվյալներ օգտագործելով՝ համակարգը կարող է օգտագործել մի շարք կադրեր, այլ ոչ միայն մեկ պատկեր՝ դրա հիմնական կետերը գրավելու համար: Արդյունքը օգտատիրոջ իրական շարժումների շատ ավելի ճշգրիտ արտացոլումն է, քանի որ համակարգը կարող է օգտագործել հարակից շրջանակներից ստացված տեղեկատվությունը՝ ընթացիկ շրջանակում մարդու մարմնի դիրքի վերաբերյալ ցանկացած անորոշություն լուծելու համար:

Ֆիթնես հավելվածներում 3D դիրքի գնահատման կիրառման ներկայիս տեխնիկայից ամենաճշգրիտ մոտեցումը նախ մոդելի կիրառումն է 2D հիմնական կետերը հայտնաբերելու համար և այնուհետև մշակել 2D հայտնաբերումը մեկ այլ մոդելի հետ՝ դրանք վերածելու 3D հիմնական կետերի կանխատեսումների: 

Է հետազոտություն Մենք վերջերս տեղադրեցինք, օգտագործվել է մեկ տեսանյութի աղբյուր, որտեղ կիրառվել են ընդլայնված ժամանակային ոլորումներ ունեցող կոնվոլյուցիոն նեյրոնային ցանցեր՝ 2D -> 3D առանցքային կետի փոխարկումն իրականացնելու համար:

Ներկայումս առկա մոդելները վերլուծելուց հետո մենք որոշեցինք, որ VideoPose3D լուծումն է լավագույնս հարմարեցված AI-ի վրա հիմնված ֆիթնես հավելվածների մեծամասնության կարիքներին: Այս համակարգի օգտագործմամբ մուտքագրումը պետք է թույլ տա հայտնաբերել առանցքային կետերի 2D հավաքածու, որտեղ COCO 2017 տվյալների բազայի վրա նախապես վերապատրաստված մոդելը կիրառվում է որպես ա 2D դետեկտոր. 

Ընթացիկ հանգույցի կամ առանցքային կետի դիրքի առավել ճշգրիտ կանխատեսման համար VideoPose3D-ը կարող է կարճ ժամանակի ընթացքում օգտագործել բազմաթիվ կադրեր՝ 2D դիրքի մասին տեղեկատվություն ստեղծելու համար: 

Եռաչափ դիրքի գնահատման ճշգրտությունը հետագայում բարձրացնելու համար մեկից ավելի տեսախցիկ կարող է հավաքել օգտատիրոջ այլընտրանքային տեսակետները, որոնք կատարում են նույն վարժությունը կամ ռեժիմը: Այնուամենայնիվ, նկատի ունեցեք, որ այն պահանջում է ավելի մեծ մշակման հզորություն, ինչպես նաև մասնագիտացված մոդելի ճարտարապետություն՝ բազմաթիվ վիդեո հոսքերի մուտքագրման համար:

Վերջերս Google-ը բացվել նրանց BlazePose համակարգը, շարժական սարքերի վրա հիմնված մոդել՝ մարդու դիրքը գնահատելու համար՝ վերլուծված առանցքային կետերի թիվը հասցնելով 33-ի, COCO-ի հիմնական կետերի հավաքածուի և երկու այլ տոպոլոգիաների՝ BlazePalm և BlazeFace: Արդյունքում, BlazePose մոդելը կարող է արտադրել կեցվածքի կանխատեսման արդյունքներ, որոնք համապատասխանում են ձեռքի մոդելներին և դեմքի մոդելներին՝ արտահայտելով մարմնի իմաստաբանությունը:

Մեքենայական ուսուցման վրա հիմնված մարդու կեցվածքի գնահատման համակարգի յուրաքանչյուր բաղադրիչ պետք է արագ լինի՝ կադրերի հայտնաբերման և հետևելու մոդելների համար առավելագույնը մի քանի միլիվայրկյան: 

Հաշվի առնելով այն փաստը, որ BlazePose խողովակաշարը (որը ներառում է դիրքի գնահատման և հետևելու բաղադրիչներ) պետք է իրական ժամանակում աշխատի մի շարք շարժական սարքերի վրա, խողովակաշարի յուրաքանչյուր առանձին հատված նախագծված է, որպեսզի լինի շատ հաշվողական արդյունավետ և աշխատի 200-1000 FPS արագությամբ: .

Կեցվածքի գնահատումը և հետևելը տեսանյութում, որտեղ հայտնի չէ, թե արդյոք և որտեղ է անձը ներկա, սովորաբար կատարվում է երկու փուլով: 

Առաջին փուլում գործարկվում է օբյեկտների հայտնաբերման մոդել՝ պարզելու մարդու ներկայությունը կամ բացահայտելու նրանց բացակայությունը: Մարդուն հայտնաբերելուց հետո դիրքի գնահատման մոդուլը կարող է մշակել անձին պարունակող տեղայնացված տարածքը և կանխատեսել առանցքային կետերի դիրքը:

Այս կարգաբերման բացասական կողմն այն է, որ այն պահանջում է ինչպես օբյեկտների հայտնաբերման, այնպես էլ դիրքի գնահատման մոդուլներ, որոնք գործարկվում են յուրաքանչյուր շրջանակի համար, որը սպառում է լրացուցիչ հաշվողական ռեսուրսներ: BlazePose-ի հեղինակները, այնուամենայնիվ, խելամիտ միջոց են մշակել այս խնդիրը շրջանցելու և այն արդյունավետորեն օգտագործելու այլ առանցքային կետերի հայտնաբերման մոդուլներում, ինչպիսիք են. FaceMesh և MediaPipe Hand.

Գաղափարն այն է, որ օբյեկտների հայտնաբերման մոդուլը (դեմքի դետեկտորը BlazePose-ի դեպքում) կարող է օգտագործվել միայն առաջին կադրում կեցվածքի հետագծումը սկսելու համար, մինչդեռ անձի հետագա հետևումը կարող է իրականացվել բացառապես դիրքի կանխատեսումների միջոցով՝ որոշակի դիրքի հավասարեցումից հետո: պարամետրեր, որոնց համար կանխատեսվում են դիրքի գնահատման մոդելի միջոցով:

Դեմքը ամենաուժեղ ազդանշանն է տալիս նեյրոնային ցանցի համար մարմնի դիրքի վերաբերյալ՝ արտաքին տեսքի համեմատաբար փոքր տարբերության և նրա դիմագծերի բարձր հակադրության արդյունքում: Հետևաբար, հնարավոր է ստեղծել կեցվածքի հայտնաբերման արագ, ցածր վերադիր համակարգ մի շարք հիմնավոր ենթադրությունների միջոցով, որոնք հիմնված են այն մտքի վրա, որ մարդու գլուխը կարող է տեղակայվել յուրաքանչյուր անձնական օգտագործման դեպքում:

Մարդու դիրքի գնահատման մարտահրավերների հաղթահարում

Ֆիթնես հավելվածներում կեցվածքի գնահատման օգտագործումը բախվում է մարդկային կեցվածքների մեծ ծավալի մարտահրավերին, օրինակ՝ հարյուրավոր ասանաների՝ յոգայի ռեժիմների մեծ մասում: 

Ավելին, մարմինը երբեմն արգելափակում է որոշ վերջույթներ, որոնք ֆիքսված են ցանկացած տեսախցիկով, օգտատերերը կարող են կրել տարբեր հանդերձանք, որը թաքցնում է մարմնի առանձնահատկությունները և անձնական տեսքը:

Նախապես պատրաստված մոդելներից օգտվելիս՝ ուշադրություն դարձրեք, որ մարմնի անսովոր շարժումները կամ տեսախցիկի տարօրինակ անկյունները կարող են հանգեցնել. մարդու դիրքի գնահատման սխալները. Մենք կարող ենք որոշակի չափով մեղմել այս խնդիրը՝ օգտագործելով մարդու մարմնի 3D մոդելի սինթետիկ տվյալներ կամ կարգավորելով տվյալ տիրույթին հատուկ տվյալները:

Լավ նորությունն այն է, որ մենք կարող ենք խուսափել կամ մեղմել թուլությունների մեծ մասը: Դա անելու բանալին ճիշտ վերապատրաստման տվյալների և մոդելի ճարտարապետության ընտրությունն է: Ավելին, մարդկային դիրքի գնահատման տեխնոլոգիայի ոլորտում զարգացման միտումը հուշում է, որ մեր առջև ծառացած որոշ խնդիրներ առաջիկա տարիներին ավելի քիչ արդիական կլինեն:

Վերջնական խոսքը

Մարդկային դիրքի գնահատումը պարունակում է մի շարք պոտենցիալ ապագա կիրառումներ ֆիթնեսի հավելվածների և մարդկանց շարժումներին հետևելու տարածքից դուրս՝ խաղերից մինչև անիմացիա, հավելյալ իրականություն մինչև ռոբոտաշինություն: Սա չի ներկայացնում հնարավորությունների ամբողջական ցանկը, բայց ընդգծում է մի քանի ամենահավանական ոլորտները, որտեղ մարդկային դիրքի գնահատումը կնպաստի մեր թվային լանդշաֆտին:

Maksym-ը ցանկանում է ձեռք բերել նոր պատկերացումներ և փորձ տվյալների գիտության և մեքենայական ուսուցման ոլորտում: Նա հատկապես հետաքրքրված է Deep Learning-ի վրա հիմնված տեխնոլոգիաներով և դրանց կիրառմամբ բիզնեսի օգտագործման դեպքերում: