stub Фитнессийн хэрэглээний хиймэл оюун ухааны байрлалын тооцоолол - Unite.AI
бидэнтэй хамт холбоно

Эрүүл мэндийн

Фитнессийн хэрэглээнд хиймэл оюун ухааны байрлалын тооцоолол

mm

Нийтэлсэн

 on

Максым Татариант, Мэдээллийн шинжлэх ухааны инженер MobiDev.

Хүний байрлалыг үнэлэх нь харьцангуй шинэ боловч хурдан хөгжиж буй технологийг хэлдэг бөгөөд фитнесс, бүжгийн хэрэглээнд чухал үүрэг гүйцэтгэдэг бөгөөд бодит ертөнцөд дижитал контент байрлуулах боломжийг бидэнд олгодог.

Товчхондоо, хүний ​​байрлалыг тооцоолох үзэл баримтлал нь хүний ​​байрлалыг илрүүлэх, боловсруулах чадвартай компьютерийн хараанд суурилсан технологи юм. Энэ технологийн хамгийн чухал бөгөөд гол хэсэг нь хүний ​​биеийн загварчлал юм. Хүний биеийн байрлалыг тооцоолох одоогийн системд араг яс, контур дээр суурилсан, эзэлхүүн дээр суурилсан гурван биеийн загвар хамгийн алдартай.

Араг яс дээр суурилсан загвар

Энэ загвар нь өвдөг, шагай, бугуй, тохой, мөр, биеийн мөчний чиг баримжаа зэрэг үе мөчний багцаас (гол цэгүүд) бүрдэнэ. Энэхүү загвар нь уян хатан байдгаараа алдартай бөгөөд 3 хэмжээст болон 2 хэмжээст хүний ​​байрлалыг тооцоолоход тохиромжтой. 3 хэмжээст загварчлалын тусламжтайгаар шийдэл нь RGB дүрсийг ашиглаж, үений X, Y, Z координатуудыг олдог. 2 хэмжээст загварчлалын хувьд энэ нь RGB зургийн ижил дүн шинжилгээ боловч X ба Y координатыг ашигладаг.

Контур дээр суурилсан загвар

Энэхүү загвар нь биеийн их бие, мөчний хэлбэр, тэдгээрийн барзгар өргөнийг ашигладаг. Энд шийдэл нь биеийн хүрээний дүрсийг авч, биеийн хэсгүүдийг тэгш өнцөгт, энэ хүрээн доторх хил хязгаар болгон харуулдаг.

Эзлэхүүнд суурилсан загвар

Энэ загвар нь ерөнхийдөө биеийн хэлбэрийг авахын тулд хэд хэдэн 3 хэмжээст сканнерыг ашигладаг бөгөөд түүнийг дүрс, геометрийн торны хүрээ болгон хувиргадаг. Эдгээр дүрсүүд нь 3D цуврал поз, биеийн дүрслэлийг бий болгодог.

Хүний 3D байрлалын тооцоолол хэрхэн ажилладаг вэ

Фитнесс програмууд нь хүний ​​​​3 хэмжээст байрлалын тооцоололд тулгуурлах хандлагатай байдаг. Эдгээр програмын хувьд хүний ​​позын талаарх мэдээлэл их байх тусмаа сайн. Энэхүү техникийг ашигласнаар програмын хэрэглэгч дасгал эсвэл дасгалын горимд оролцож буйгаа бичих болно. Дараа нь уг программ нь хэрэглэгчийн биеийн хөдөлгөөнд дүн шинжилгээ хийж, алдаа эсвэл алдааг засах болно.

Энэ төрлийн програмын урсгал диаграм нь ихэвчлэн дараах загварыг дагаж мөрддөг:

  • Нэгдүгээрт, дасгал хийж байх үеийн хэрэглэгчийн хөдөлгөөний талаархи мэдээллийг цуглуул.
  • Дараа нь хэрэглэгчийн хөдөлгөөн хэр зөв эсвэл буруу байсныг тодорхойл.
  • Эцэст нь хэрэглэгчдэд ямар алдаа гаргасан болохыг интерфэйсээр харуул.

Яг одоо хүний ​​позын технологийн стандарт нь ийм байна COCO топологи. COCO топологи нь нүүр, гар, хөл хүртэлх биеийн 17 цэгээс бүрддэг. COCO нь хүний ​​биеийн цорын ганц хэлбэр биш, зөвхөн хамгийн түгээмэл хэрэглэгддэг хэлбэр гэдгийг анхаарна уу.

Энэ төрлийн процесс нь ихэвчлэн хэрэглэгчийн байрлалыг тооцоолохдоо үе мөчийг задлахад гүн гүнзгий машин сургалтын технологийг ашигладаг. Дараа нь олж мэдсэн зүйлээ ойлгохын тулд геометрт суурилсан алгоритмуудыг ашигладаг (илрүүлсэн үений харьцангуй байрлалд дүн шинжилгээ хийх). Динамик видеог эх өгөгдлөөр нь ашиглах үед систем нь зөвхөн нэг зураг биш хэд хэдэн фрэймийг ашиглан гол цэгүүдийг нь авах боломжтой. Үүний үр дүнд систем нь одоогийн фрейм дэх хүний ​​биеийн байрлалтай холбоотой аливаа тодорхой бус байдлыг шийдвэрлэхийн тулд зэргэлдээх фреймүүдийн мэдээллийг ашиглах боломжтой тул хэрэглэгчийн бодит хөдөлгөөнийг илүү нарийвчлалтай харуулах болно.

Фитнессийн хэрэглээнд 3 хэмжээст байрлалын үнэлгээг ашиглах одоогийн аргуудаас хамгийн зөв арга бол эхлээд 2 хэмжээст гол цэгүүдийг илрүүлэх загвар хэрэглэж, дараа нь 2 хэмжээст илрүүлэлтийг өөр загвараар боловсруулж тэдгээрийг 3 хэмжээст гол цэгийн таамаглал болгон хувиргах явдал юм. 

Дахь судалгаа Бид саяхан нийтэлсэн, 2D -> 3D гол цэгийн хөрвүүлэлтийг гүйцэтгэхийн тулд өргөссөн түр зуурын эргэлт бүхий эвдэрсэн мэдрэлийн сүлжээг ашигласан нэг видео эх сурвалжийг ашигласан.

Одоо байгаа загваруудад дүн шинжилгээ хийсний дараа бид VideoPose3D нь хиймэл оюун ухаанд суурилсан фитнессийн ихэнх програмуудын хэрэгцээнд хамгийн сайн тохирсон шийдэл гэдгийг тодорхойлсон. Энэ системийг ашигласан оролт нь 2D багц гол цэгүүдийг илрүүлэх боломжийг олгоно. COCO 2017 өгөгдлийн багц дээр урьдчилан бэлтгэгдсэн загварыг дараах байдлаар ашигладаг 2D илрүүлэгч. 

Одоогийн холбоос эсвэл гол цэгийн байрлалыг хамгийн нарийн таамаглахын тулд VideoPose3D нь богино хугацааны дарааллаар олон фрейм ашиглан 2 хэмжээст позын мэдээллийг үүсгэх боломжтой. 

3D позын тооцооллын нарийвчлалыг нэмэгдүүлэхийн тулд нэгээс олон камер нь ижил дасгал эсвэл дасгал хийж буй хэрэглэгчийн өөр өнцгөөс харах боломжтой. Гэсэн хэдий ч энэ нь олон видео урсгалын оролттой ажиллахын тулд илүү их боловсруулалтын хүч, мөн тусгай загвар архитектур шаарддаг гэдгийг анхаарна уу.

Саяхан Google танилцууллаа Тэдний BlazePose систем нь хүний ​​байрлалыг тодорхойлох хөдөлгөөнт төхөөрөмжид суурилсан загвар бөгөөд дүн шинжилгээ хийх гол цэгүүдийн тоог 33 болгон нэмэгдүүлэх, COCO түлхүүрийн багцын дээд багц болон BlazePalm болон BlazeFace гэсэн хоёр топологи юм. Үүний үр дүнд BlazePose загвар нь биеийн утгыг илэрхийлэх замаар гар загвар болон нүүрний загвартай нийцсэн байрлалыг таамаглах үр дүнг гаргаж чадна.

Машинд суурилсан хүний ​​байрлалыг тооцоолох системийн бүрэлдэхүүн хэсэг бүр хурдан байх ёстой бөгөөд байрлалыг илрүүлэх, хянах загваруудад нэг кадр бүрт хамгийн ихдээ хэдэн миллисекунд зарцуулдаг. 

BlazePose дамжуулах хоолой (позыг тооцоолох, хянах бүрэлдэхүүн хэсгүүдийг багтаасан) нь олон төрлийн хөдөлгөөнт төхөөрөмж дээр бодит цаг хугацаанд ажиллах ёстой тул дамжуулах хоолойн хэсэг бүр нь тооцооллын хувьд маш үр дүнтэй бөгөөд 200-1000 FPS хурдтай ажиллахаар бүтээгдсэн. .

Тухайн хүн байгаа эсэх, хаана байгаа нь тодорхойгүй байгаа бичлэг дээр позын тооцоолол, хяналтыг ихэвчлэн хоёр үе шаттайгаар хийдэг. 

Эхний шатанд хүн байгаа эсэхийг тогтоох эсвэл байхгүйг тодорхойлохын тулд объект илрүүлэх загварыг ажиллуулдаг. Тухайн хүнийг илрүүлсний дараа байрлалыг тооцоолох модуль нь тухайн хүнийг агуулсан нутагшуулсан хэсгийг боловсруулж, гол цэгүүдийн байрлалыг урьдчилан таамаглах боломжтой.

Энэхүү тохиргооны сул тал нь нэмэлт тооцооллын нөөц зарцуулдаг фрейм бүрт объект илрүүлэх болон байрлалыг тооцоолох модулиудыг хоёуланг нь ажиллуулах шаардлагатай байдаг. Гэсэн хэдий ч BlazePose-ийн зохиогчид энэ асуудлыг тойрч гарах ухаалаг аргыг зохион бүтээсэн бөгөөд үүнийг бусад гол цэг илрүүлэх модулиудад үр дүнтэй ашиглах боломжтой болсон. FaceMesh болон MediaPipe гар.

Гол санаа нь объект илрүүлэх модулийг (BlazePose-ийн хувьд нүүр мэдрэгч) зөвхөн эхний кадрт поз хянах ажлыг эхлүүлэхэд ашиглагдаж болох бөгөөд хүний ​​дараагийн ажиглалтыг зарим байрлалыг тохируулсны дараа зөвхөн позын таамаглалыг ашиглан хийж болно. позыг тооцоолох загварыг ашиглан урьдчилан таамагласан параметрүүдийг.

Гаднах төрх нь харьцангуй бага ялгаатай, шинж чанар нь өндөр ялгаатай байдгийн үр дүнд нүүр нь мэдрэлийн сүлжээнд их биеийн байрлалын талаар хамгийн хүчтэй дохио өгдөг. Үүний үр дүнд хүний ​​толгойг хувийн хэрэгцээнд ашиглах боломжтой гэсэн санаан дээр үндэслэсэн хэд хэдэн үндэслэлтэй таамаглалаар дамжуулан байрлалыг илрүүлэх хурдан, бага ачаалалтай системийг бий болгох боломжтой юм.

Хүний байрлалыг тооцоолоход тулгарч буй бэрхшээлийг даван туулах

Фитнессийн программуудад позын тооцоололыг ашиглах нь хүний ​​​​позын хүрээний асар том хэмжээ, тухайлбал йогийн ихэнх горимд хэдэн зуун асана гэх мэт сорилттой тулгардаг. 

Цаашилбал, дурын камерт буулгасан тохиолдолд бие нь зарим мөчрийг хааж, хэрэглэгчид биеийн онцлог, дүр төрхийг бүрхсэн янз бүрийн хувцас өмсөж болно.

Урьдчилан бэлтгэгдсэн загваруудыг ашиглахдаа биеийн ер бусын хөдөлгөөн эсвэл хачирхалтай камерын өнцгүүд нь дараахь зүйлийг үүсгэж болзошгүйг анхаарна уу. хүний ​​байрлалыг үнэлэх алдаа. Бид хүний ​​биеийн 3D загвараас авсан нийлэг өгөгдлийг ашиглах, эсвэл тухайн домэйнд хамаарах өгөгдлийг нарийн тааруулах замаар энэ асуудлыг тодорхой хэмжээгээр багасгаж чадна.

Сайн мэдээ гэвэл бид ихэнх сул талуудаас зайлсхийх эсвэл багасгах боломжтой юм. Үүний гол түлхүүр нь сургалтын зөв өгөгдөл, загвар архитектурыг сонгох явдал юм. Цаашилбал, хүний ​​байрлалыг тооцоолох технологийн салбарын хөгжлийн хандлага нь бидний одоо тулгараад байгаа зарим асуудлууд ойрын жилүүдэд ач холбогдол багатай болохыг харуулж байна.

Эцсийн үг

Хүний байрлалыг тооцоолох нь фитнессийн программ болон хүний ​​хөдөлгөөнийг хянах, тоглоом тоглохоос эхлээд анимейшн, Өргөтгөсөн бодит байдал, робот техник гэх мэт ирээдүйн янз бүрийн боломжит хэрэглээг агуулдаг. Энэ нь боломжуудын бүрэн жагсаалтыг төлөөлдөггүй боловч хүний ​​​​позын тооцоолол нь манай дижитал ландшафтыг бий болгоход хувь нэмрээ оруулах хамгийн магадлалтай зарим хэсгийг онцолж байна.

Максым нь өгөгдлийн шинжлэх ухаан, машин сургалтын чиглэлээр шинэ ойлголт, туршлага олж авах сонирхолтой байдаг. Тэрээр Deep Learning-д суурилсан технологи, тэдгээрийг бизнесийн хэрэглээний тохиолдлуудад ашиглахыг онцгой сонирхдог.