кочан AI Оценка на поза във фитнес приложение - Unite.AI
Свържете се с нас

Здравеопазване

AI Оценка на позата във фитнес приложението

mm

Публикуван

 on

От Максим Татарианц, инженер по наука за данни в MobiDev.

Оценката на човешката поза се отнася до технология – сравнително нова, но бързо развиваща се – която играе значителна роля в приложенията за фитнес и танци, позволявайки ни да поставим цифрово съдържание върху реалния свят.

Накратко, концепцията за оценка на човешката поза е технология, базирана на компютърно зрение, способна да открива и обработва човешка поза. Най-важната и централна част от тази технология е моделирането на човешкото тяло. Три модела на тялото са най-видни в настоящите системи за оценка на човешката поза – базирани на скелет, базирани на контури и базирани на обем.

Скелетно базиран модел

Този модел се състои от набор от стави (ключови точки), като колене, глезени, китки, лакти, рамене и ориентация на крайниците на тялото. Този модел се отличава със своята гъвкавост и като такъв е подходящ както за 3-измерна, така и за 2-измерна оценка на човешка поза. С 3-измерно моделиране решението използва RGB изображение и намира X, Y и Z координатите на ставите. При двуизмерното моделиране това е същият анализ на RGB изображение, но с помощта на координатите X и Y.

Контурен модел

Този модел използва контурите на торса и крайниците на тялото, както и грубата им ширина. Тук решението взема силуета на рамката на тялото и изобразява частите на тялото като правоъгълници и граници в тази рамка.

Модел, базиран на обем

Този модел обикновено използва серия от триизмерни сканирания, за да улови формата на тялото и да го преобразува в рамка от форми и геометрични мрежи. Тези форми създават 3D серия от пози и изображения на тялото.

Как работи 3D оценката на човешката поза

Фитнес приложенията са склонни да разчитат на 3-измерна оценка на човешка поза. За тези приложения колкото повече информация за човешката поза, толкова по-добре. С тази техника потребителят на приложението ще запише участието си в упражнение или рутинна тренировка. След това приложението ще анализира движенията на тялото на потребителя, предлагайки корекции за грешки или неточности.

Този тип блок-схема на приложението обикновено следва следния модел:

  • Първо, съберете данни за движенията на потребителя, докато изпълнява упражнението.
  • След това определете колко правилни или неправилни са били движенията на потребителя.
  • И накрая, покажете на потребителя чрез интерфейса какви грешки може да е направил.

В момента стандартът в технологията за човешка поза е COCO топология. Топологията на COCO се състои от 17 ориентира по тялото, вариращи от лицето до ръцете и краката. Имайте предвид, че COCO не е единствената рамка за поза на човешкото тяло, а само най-често използваната.

Този тип процес обикновено използва технология за дълбоко машинно обучение за извличане на стави при оценка на позата на потребителя. След това използва базирани на геометрия алгоритми, за да осмисли какво е намерено (анализира относителните позиции на откритите стави). Докато използва динамично видео като свои изходни данни, системата може да използва поредица от кадри, а не само едно изображение, за да улови неговите ключови точки. Резултатът е много по-точно изобразяване на реалните движения на потребителя, тъй като системата може да използва информация от съседните кадри, за да разреши всякакви несигурности относно позицията на човешкото тяло в текущия кадър.

От настоящите техники за използване на 3D оценка на поза във фитнес приложения, най-точният подход е първо да се приложи модел за откриване на 2D ключови точки и впоследствие да се обработи 2D откриването с друг модел, за да се преобразуват в 3D прогнози за ключови точки. 

в изследване публикувахме наскоро, беше използван един източник на видео с конволюционни невронни мрежи с разширени темпорални навивки, приложени за извършване на 2D -> 3D преобразуване на ключови точки.

След като анализирахме наличните в момента модели, решихме, че VideoPose3D е решението, което е най-добре пригодено за нуждите на повечето фитнес приложения, управлявани от AI. Входът, използващ тази система, трябва да позволява откриването на 2D набор от ключови точки, където модел, предварително обучен на набор от данни COCO 2017, се прилага като a 2D детектор. 

За най-прецизно предвиждане на позицията на текуща става или ключова точка, VideoPose3D може да използва множество кадри за кратка последователност от време, за да генерира информация за 2D поза. 

За допълнително повишаване на точността на оценката на 3D поза, повече от една камера може да събира алтернативни гледни точки на потребителя, изпълняващ едно и също упражнение или рутина. Обърнете внимание обаче, че това изисква по-голяма процесорна мощност, както и специализирана архитектура на модела, за да се справят с множество входове на видео поток.

Наскоро Google представи тяхната система BlazePose, модел, ориентиран към мобилно устройство за оценка на човешката поза чрез увеличаване на броя на анализираните ключови точки до 33, надмножество на набора от ключови точки COCO и две други топологии – BlazePalm и BlazeFace. В резултат на това моделът BlazePose може да произведе резултати за прогнозиране на пози, съответстващи на моделите на ръцете и лицата чрез артикулиране на семантиката на тялото.

Всеки компонент в рамките на базирана на машинно обучение система за оценка на човешка поза трябва да бъде бърз, като отнема максимум няколко милисекунди на кадър за модели за откриване на поза и проследяване. 

Поради факта, че тръбопроводът BlazePose (който включва компоненти за оценка на позата и проследяване) трябва да работи на различни мобилни устройства в реално време, всяка отделна част от тръбопровода е проектирана да бъде много ефективна от изчислителна гледна точка и да работи при 200-1000 FPS .

Оценката на позата и проследяването във видеото, когато не е известно дали и къде присъства лицето, обикновено се извършва на два етапа. 

На първия етап се изпълнява модел за откриване на обект, за да се установи присъствието на човек или да се идентифицира неговото отсъствие. След като лицето бъде открито, модулът за оценка на поза може да обработи локализираната област, съдържаща лицето, и да предвиди позицията на ключовите точки.

Недостатъкът на тази настройка е, че изисква както модули за откриване на обекти, така и модули за оценка на позата да се изпълняват за всеки кадър, което изразходва допълнителни изчислителни ресурси. Авторите на BlazePose обаче измислиха умен начин да заобиколят този проблем и да го използват ефективно в други модули за откриване на ключови точки, като напр. FaceMesh намлява MediaPipe Hand.

Идеята е, че модулът за откриване на обект (детектор на лице в случая на BlazePose) може да се използва само за стартиране на проследяването на поза в първия кадър, докато последващото проследяване на лицето може да се извърши, като се използват изключително прогнозите за поза след известно подравняване на поза, параметри, за които се прогнозират с помощта на модела за оценка на позата.

Лицето произвежда най-силния сигнал за позицията на торса за невронната мрежа, в резултат на относително малката разлика във външния вид и високия контраст в характеристиките му. Следователно е възможно да се създаде бърза система с ниски разходи за откриване на поза чрез поредица от оправдани предположения, основани на идеята, че човешката глава ще може да се намира във всеки случай на лична употреба.

Преодоляване на предизвикателствата при оценката на човешката поза

Използването на оценка на позата във фитнес приложенията е изправено пред предизвикателството на големия набор от човешки пози, например стотиците асани в повечето йога режими. 

Освен това тялото понякога ще блокира определени крайници, заснети от дадена камера, потребителите могат да носят различни тоалети, които прикриват чертите на тялото и личния външен вид.

Докато използвате всякакви предварително обучени модели, имайте предвид, че необичайни движения на тялото или странни ъгли на камерата могат да доведат до грешки в оценката на човешката поза. Можем да смекчим този проблем до известна степен, като използваме синтетични данни от изобразяване на 3D модел на човешко тяло или чрез фина настройка с данни, специфични за въпросния домейн.

Добрата новина е, че можем да избегнем или смекчим повечето слабости. Ключът към това е да изберете правилните данни за обучение и архитектура на модела. Освен това, тенденцията на развитие в областта на технологията за оценка на човешката поза предполага, че някои от проблемите, с които се сблъскваме сега, ще бъдат по-малко актуални през следващите години.

Последната дума

Оценката на човешката поза съдържа различни потенциални бъдещи приложения извън областта на фитнес приложенията и проследяването на човешки движения, от игри до анимация до разширена реалност до роботика. Това не представлява пълен списък на възможностите, но подчертава някои от най-вероятните области, в които оценката на човешката поза ще допринесе за нашия цифров пейзаж.

Максим има желание да придобие нови прозрения и опит в науката за данни и машинното обучение. Той се интересува особено от технологиите, базирани на задълбочено обучение и тяхното приложение в случаи на бизнес употреба.