стуб Процена АИ положаја у апликацији за фитнес - Уните.АИ
Повежите се са нама

Здравство

АИ поза процена у фитнес апликацији

mm

објављен

 on

Аутор Максим Татариантс, инжењер за науку података у МобиДев.

Процена људске позе односи се на технологију – прилично нову, али се брзо развија – која игра значајну улогу у апликацијама за фитнес и плес, омогућавајући нам да дигитални садржај поставимо преко стварног света.

Укратко, концепт процене људске позе је технологија заснована на компјутерском виду која може да открије и обради људско држање. Најважнији и централни део ове технологије је моделирање људског тела. Три модела тела су најистакнутија у постојећим системима за процену позе човека – засновани на скелету, на основу контура и на основу запремине.

Модел заснован на скелету

Овај модел се састоји од скупа зглобова (кључних тачака), као што су колена, глежњеви, ручни зглобови, лактови, рамена и оријентација удова тела. Овај модел је препознатљив по својој флексибилности и као такав је погодан и за 3-димензионалну и за 2-димензионалну процену људске позе. Са 3-димензионалним моделирањем, решење користи РГБ слику и проналази координате Кс, И и З зглобова. Са 2-димензионалним моделирањем, то је иста анализа РГБ слике, али користећи координате Кс и И.

Модел заснован на контурама

Овај модел користи контуре трупа и удова тела, као и њихову грубу ширину. Овде решење узима силуету оквира тела и приказује делове тела као правоугаонике и границе унутар тог оквира.

Модел заснован на запремини

Овај модел генерално користи серију тродимензионалних скенирања да би ухватио облик тела и претворио га у оквир облика и геометријских мрежа. Ови облици стварају 3Д серију поза и репрезентација тела.

Како функционише 3Д процена људске позе

Фитнес апликације се обично ослањају на 3-димензионалну процену људске позе. За ове апликације, што више информација о људској пози, то боље. Овом техником, корисник апликације ће снимити себе како учествује у вежби или рутини вежбања. Апликација ће затим анализирати покрете тела корисника, нудећи исправке за грешке или нетачности.

Овај тип дијаграма тока апликације обично прати овај образац:

  • Прво прикупите податке о покретима корисника док изводе вежбу.
  • Затим одредите колико су били исправни или нетачни покрети корисника.
  • На крају, покажите кориснику преко интерфејса које грешке су можда направили.

Тренутно је стандард у технологији људских поза ЦОЦО топологи. ЦОЦО топологија се састоји од 17 оријентира по целом телу, у распону од лица преко руку до ногу. Имајте на уму да ЦОЦО није једини оквир за позу људског тела, већ само онај који се најчешће користи.

Овај тип процеса обично користи технологију дубоког машинског учења за екстракцију зглобова у процени положаја корисника. Затим користи алгоритме засноване на геометрији да би дао смисао ономе што је пронађено (анализира релативне положаје откривених спојева). Док користи динамички видео као изворне податке, систем може да користи низ оквира, а не само једну слику, да ухвати своје кључне тачке. Резултат је далеко тачније приказивање стварних покрета корисника пошто систем може да користи информације из суседних кадрова да разреши све нејасноће у вези са положајем људског тела у тренутном кадру.

Од тренутних техника за коришћење 3Д процене позе у фитнес апликацијама, најтачнији приступ је да се прво примени модел за откривање 2Д кључних тачака, а затим да се 2Д детекција обради са другим моделом да би се конвертовала у 3Д предвиђања кључних тачака. 

У истраживање који смо недавно објавили, коришћен је један видео извор, са конволуционим неуронским мрежама са проширеним временским конволуцијама примењеним за извођење 2Д -> 3Д конверзије кључних тачака.

Након анализе модела који су тренутно доступни, утврдили смо да је ВидеоПосе3Д решење које је најбоље прилагођено потребама већине фитнес апликација вођених вештачком интелигенцијом. Улаз који користи овај систем треба да омогући откривање 2Д скупа кључних тачака, где се модел, претходно обучен за скуп података ЦОЦО 2017, примењује као а 2Д детектор. 

За најпрецизније предвиђање положаја тренутног зглоба или кључне тачке, ВидеоПосе3Д може да користи више кадрова током кратког временског низа да генерише 2Д информације о пози. 

Да би се додатно повећала тачност 3Д процене позе, више од једне камере може да прикупи алтернативне тачке гледишта корисника који изводи исту вежбу или рутину. Имајте на уму, међутим, да захтева већу процесорску снагу, као и специјализовану архитектуру модела за рад са вишеструким улазима видео тока.

Недавно, Гоогле откривен њихов БлазеПосе систем, модел оријентисан на мобилни уређај за процену људске позе повећањем броја анализираних кључних тачака на 33, суперскуп скупа ЦОЦО кључних тачака и две друге топологије – БлазеПалм и БлазеФаце. Као резултат тога, БлазеПосе модел може произвести резултате предвиђања позе у складу са моделима руку и лица артикулишући семантику тела.

Свака компонента унутар система за процену положаја човека заснованог на машинском учењу мора да буде брза, узимајући највише неколико милисекунди по кадру за моделе за детекцију позе и праћење. 

Због чињенице да БлазеПосе цевовод (који укључује компоненте за процену положаја и праћење) мора да ради на различитим мобилним уређајима у реалном времену, сваки појединачни део цевовода је дизајниран да буде веома рачунарски ефикасан и ради на 200-1000 ФПС .

Процена позе и праћење на видео снимку где се не зна да ли је и где је особа присутна обично се ради у две фазе. 

У првој фази, покреће се модел детекције објеката како би се лоцирало присуство човека или да би се идентификовало њихово одсуство. Након што је особа откривена, модул за процену позе може обрадити локализовану област која садржи особу и предвидети положај кључних тачака.

Недостатак овог подешавања је што захтева и модуле за детекцију објеката и модуле за процену положаја да се покрећу за сваки оквир који троши додатне рачунарске ресурсе. Међутим, аутори БлазеПосе-а су осмислили паметан начин да заобиђу овај проблем и ефикасно га користе у другим модулима за откривање кључних тачака, као што су ФацеМесх МедиаПипе Ханд.

Идеја је да се модул за детекцију објеката (детектор лица у случају БлазеПосе) може користити само за покретање праћења позе у првом кадру, док се накнадно праћење особе може обавити користећи искључиво предвиђања позе након неког поравнања позе, параметри за које се предвиђају коришћењем модела процене позе.

Лице производи најјачи сигнал о положају торза за неуронску мрежу, као резултат релативно мале варијације у изгледу и високог контраста у његовим цртама. Сходно томе, могуће је створити брз систем са ниским трошковима за детекцију позе кроз низ оправданих претпоставки заснованих на идеји да ће људска глава бити лоцирана у сваком случају личне употребе.

Превазилажење изазова процене људске позе

Коришћење процене позе у апликацијама за фитнес суочава се са изазовом огромног опсега људских поза, на пример, стотинама асана у већини режима јоге. 

Даље, тело ће понекад блокирати одређене удове снимљене било којом камером, корисници могу да носе различите одеће која прикрива карактеристике тела и лични изглед.

Док користите све претходно обучене моделе, имајте на уму да необични покрети тела или чудни углови камере могу довести до грешке у процени људске позе. Овај проблем можемо донекле ублажити коришћењем синтетичких података из рендера 3Д модела људског тела или финим подешавањем података специфичних за дотичну домену.

Добра вест је да можемо избећи или ублажити већину слабости. Кључ за то је одабир правих података о обуци и архитектуре модела. Даље, тенденција развоја у области технологије процене људске позе сугерише да ће нека од питања са којима се сада суочавамо бити мање релевантна у наредним годинама.

Завршна реч

Процена људске позе садржи различите потенцијалне будуће употребе ван области фитнес апликација и праћења људских покрета, од игара преко анимације до проширене стварности до роботике. То не представља потпуну листу могућности, али истиче неке од највероватнијих области у којима ће процена људске позе допринети нашем дигиталном пејзажу.

Максим жели да стекне нове увиде и искуство у науци о подацима и машинском учењу. Посебно је заинтересован за технологије засноване на дубоком учењу и њихову примену у случајевима пословне употребе.