სტუბი AI პოზის შეფასება ფიტნეს აპლიკაციაში - Unite.AI
დაკავშირება ჩვენთან ერთად

ჯანდაცვის

AI პოზის შეფასება ფიტნეს აპლიკაციაში

mm

გამოქვეყნებულია

 on

Maksym Tatariants, მონაცემთა მეცნიერების ინჟინერი at მობიდევი.

ადამიანის პოზის შეფასება ეხება ტექნოლოგიას - საკმაოდ ახალს, მაგრამ სწრაფად ვითარდება - რომელიც მნიშვნელოვან როლს ასრულებს ფიტნესისა და საცეკვაო აპლიკაციებში, რაც საშუალებას გვაძლევს განვათავსოთ ციფრული შინაარსი რეალურ სამყაროში.

მოკლედ, ადამიანის პოზის შეფასების კონცეფცია არის კომპიუტერული ხედვაზე დაფუძნებული ტექნოლოგია, რომელსაც შეუძლია ადამიანის პოზის აღმოჩენა და დამუშავება. ამ ტექნოლოგიის ყველაზე მნიშვნელოვანი და ცენტრალური ნაწილია ადამიანის სხეულის მოდელირება. სხეულის სამი მოდელი ყველაზე თვალსაჩინოა ადამიანის პოზის შეფასების ამჟამინდელ სისტემებში - ჩონჩხზე დაფუძნებული, კონტურზე დაფუძნებული და მოცულობაზე დაფუძნებული.

ჩონჩხზე დაფუძნებული მოდელი

ეს მოდელი შედგება სახსრების ნაკრებისგან (საკვანძო წერტილები), როგორიცაა მუხლები, ტერფები, მაჯები, იდაყვები, მხრები და სხეულის კიდურების ორიენტაცია. ეს მოდელი გამოირჩევა მოქნილობით და, როგორც ასეთი, შესაფერისია როგორც 3-განზომილებიანი, ასევე 2-განზომილებიანი ადამიანის პოზის შესაფასებლად. 3-განზომილებიანი მოდელირებით, გამოსავალი იყენებს RGB სურათს და პოულობს სახსრების X, Y და Z კოორდინატებს. 2-განზომილებიანი მოდელირებით, ეს არის იგივე RGB გამოსახულების ანალიზი, მაგრამ X და Y კოორდინატების გამოყენებით.

კონტურზე დაფუძნებული მოდელი

ეს მოდელი იყენებს სხეულის ტანისა და კიდურების კონტურებს, ასევე მათ უხეშ სიგანეს. აქ გამოსავალი იღებს სხეულის ჩარჩოს სილუეტს და ასახავს სხეულის ნაწილებს მართკუთხედებად და საზღვრებად ამ ჩარჩოში.

მოცულობაზე დაფუძნებული მოდელი

ეს მოდელი ზოგადად იყენებს 3-განზომილებიანი სკანირების სერიას სხეულის ფორმის დასაფიქსირებლად და გარდაქმნის მას ფორმებისა და გეომეტრიული ბადეების ჩარჩოში. ეს ფორმები ქმნის პოზებისა და სხეულის გამოსახულებების 3D სერიას.

როგორ მუშაობს 3D ადამიანის პოზის შეფასება

ფიტნეს აპლიკაციები, როგორც წესი, ეყრდნობა 3-განზომილებიანი ადამიანის პოზის შეფასებას. ამ აპებისთვის, რაც მეტი ინფორმაციაა ადამიანის პოზაზე, მით უკეთესი. ამ ტექნიკით, აპლიკაციის მომხმარებელი ჩაიწერს საკუთარ თავს ვარჯიშის ან ვარჯიშის რუტინაში მონაწილეობისას. შემდეგ აპლიკაცია გააანალიზებს მომხმარებლის სხეულის მოძრაობებს, შესთავაზებს შესწორებებს შეცდომებზე ან უზუსტობებზე.

ამ ტიპის აპლიკაციის დიაგრამა, როგორც წესი, შემდეგნაირად გამოიყურება:

  • პირველ რიგში, შეაგროვეთ მონაცემები მომხმარებლის მოძრაობებზე ვარჯიშის შესრულებისას.
  • შემდეგი, დაადგინეთ, რამდენად სწორი ან არასწორი იყო მომხმარებლის მოძრაობები.
  • და ბოლოს, აჩვენეთ მომხმარებელს ინტერფეისის საშუალებით, რა შეცდომები შეიძლება დაუშვათ.

ამჟამად, ადამიანის პოზის ტექნოლოგიაში სტანდარტია COCO ტოპოლოგია. COCO ტოპოლოგია შედგება 17 ღირშესანიშნაობისგან მთელს სხეულში, დაწყებული სახედან ხელებამდე და ფეხებამდე. გაითვალისწინეთ, რომ COCO არ არის ადამიანის სხეულის პოზების ერთადერთი ჩარჩო, უბრალოდ ყველაზე ხშირად გამოყენებული.

ამ ტიპის პროცესი, როგორც წესი, იყენებს ღრმა მანქანათმცოდნეობის ტექნოლოგიას სახსრების ამოღების მიზნით მომხმარებლის პოზის შესაფასებლად. შემდეგ ის იყენებს გეომეტრიაზე დაფუძნებულ ალგორითმებს, რათა გააცნობიეროს ის, რაც ნაპოვნია (გააანალიზეთ აღმოჩენილი სახსრების შედარებითი პოზიციები). დინამიური ვიდეოს წყაროს მონაცემად გამოყენებისას, სისტემას შეუძლია გამოიყენოს კადრების სერია და არა მხოლოდ ერთი სურათი, მისი საკვანძო წერტილების გადასაღებად. შედეგი არის მომხმარებლის რეალური მოძრაობების ბევრად უფრო ზუსტი წარმოდგენა, რადგან სისტემას შეუძლია გამოიყენოს ინფორმაცია მიმდებარე ჩარჩოებიდან, რათა გადაჭრას ნებისმიერი გაურკვევლობა ადამიანის სხეულის პოზიციასთან დაკავშირებით მიმდინარე ჩარჩოში.

ფიტნეს აპლიკაციებში 3D პოზის შეფასების გამოყენების ამჟამინდელი ტექნიკიდან, ყველაზე ზუსტი მიდგომაა ჯერ მოდელის გამოყენება 2D საკვანძო წერტილების გამოსავლენად და შემდგომში 2D გამოვლენის დამუშავება სხვა მოდელთან, რათა გადაიყვანოთ ისინი 3D საკვანძო პროგნოზებად. 

ამ კვლევის ჩვენ ცოტა ხნის წინ გამოვაქვეყნეთ, გამოყენებული იყო ერთი ვიდეო წყარო, კონვოლუციური ნერვული ქსელებით გაფართოებული დროებითი კონვოლუციებით, რომლებიც გამოიყენება 2D -> 3D საკვანძო წერტილის კონვერტაციის შესასრულებლად.

ამჟამად არსებული მოდელების გაანალიზების შემდეგ, ჩვენ დავადგინეთ, რომ VideoPose3D არის გამოსავალი, რომელიც საუკეთესოდ არის მორგებული AI-ზე ორიენტირებული ფიტნეს აპლიკაციების უმეტესობის საჭიროებებზე. ამ სისტემის გამოყენებით შეყვანამ უნდა უზრუნველყოს საკვანძო წერტილების 2D ნაკრების გამოვლენა, სადაც COCO 2017 მონაცემთა ბაზაზე წინასწარ მომზადებული მოდელი გამოიყენება როგორც ა 2D დეტექტორი. 

მიმდინარე სახსრის ან საკვანძო წერტილის პოზიციის ყველაზე ზუსტი პროგნოზირებისთვის, VideoPose3D-ს შეუძლია გამოიყენოს მრავალი კადრი დროის მოკლე თანმიმდევრობით 2D პოზის ინფორმაციის შესაქმნელად. 

3D პოზების შეფასების სიზუსტის შემდგომი გასაზრდელად, ერთზე მეტ კამერას შეუძლია შეაგროვოს მომხმარებლის ალტერნატიული ხედვა, რომელიც ასრულებს იმავე ვარჯიშს ან რუტინას. ამასთან, გაითვალისწინეთ, რომ ის მოითხოვს უფრო მეტ გადამამუშავებელ ძალას, ისევე როგორც მოდელის სპეციალიზებულ არქიტექტურას მრავალჯერადი ვიდეო ნაკადის შეყვანისთვის.

ცოტა ხნის წინ, Google გამოაქვეყნა მათი BlazePose სისტემა, მობილურ მოწყობილობაზე ორიენტირებული მოდელი ადამიანის პოზის შესაფასებლად გაანალიზებული საკვანძო წერტილების რაოდენობის გაზრდით 33-მდე, COCO საკვანძო პუნქტების ნაკრების სუპერკომპლექტი და ორი სხვა ტოპოლოგია - BlazePalm და BlazeFace. შედეგად, BlazePose მოდელს შეუძლია წარმოქმნას პოზების პროგნოზირების შედეგები, რომლებიც შეესაბამება ხელის მოდელებსა და სახის მოდელებს სხეულის სემანტიკის არტიკულაციის გზით.

თითოეული კომპონენტი მანქანურ სწავლაზე დაფუძნებული ადამიანის პოზების შეფასების სისტემაში უნდა იყოს სწრაფი და დასჭირდება მაქსიმუმ რამდენიმე მილიწამს თითო კადრზე პოზის აღმოჩენისა და თვალთვალის მოდელებისთვის. 

იმის გამო, რომ BlazePose მილსადენი (რომელიც მოიცავს პოზების შეფასებას და თვალთვალის კომპონენტებს) უნდა იმუშაოს სხვადასხვა მობილურ მოწყობილობებზე რეალურ დროში, მილსადენის თითოეული ცალკეული ნაწილი შექმნილია ისე, რომ იყოს ძალიან ეფექტური გამოთვლით და მუშაობს 200-1000 FPS სიჩქარით. .

პოზების შეფასება და თვალყურის დევნება ვიდეოში, სადაც უცნობია არის თუ არა და სად იმყოფება ადამიანი, ჩვეულებრივ კეთდება ორ ეტაპად. 

პირველ ეტაპზე, ობიექტის გამოვლენის მოდელი გამოიყენება ადამიანის არსებობის დასადგენად ან მათი არყოფნის დასადგენად. ადამიანის აღმოჩენის შემდეგ, პოზის შეფასების მოდულს შეუძლია დაამუშაოს პირის შემცველი ლოკალიზებული არე და წინასწარ განსაზღვროს საკვანძო წერტილების პოზიცია.

ამ დაყენების მინუსი არის ის, რომ ის მოითხოვს როგორც ობიექტის ამოცნობის, ასევე პოზის შეფასების მოდულებს, რათა იმუშაოს ყველა ფრეიმზე, რომელიც მოიხმარს დამატებით გამოთვლით რესურსებს. თუმცა, BlazePose-ის ავტორებმა შეიმუშავეს ჭკვიანური გზა ამ საკითხის გადასაჭრელად და ეფექტურად გამოიყენონ ის სხვა საკვანძო წერტილების აღმოჩენის მოდულებში, როგორიცაა FaceMesh მდე MediaPipe Hand.

იდეა იმაში მდგომარეობს, რომ ობიექტის აღმოჩენის მოდული (სახის დეტექტორი BlazePose-ის შემთხვევაში) შეიძლება გამოყენებულ იქნას მხოლოდ პოზების თვალყურის დევნების დასაწყებად პირველ კადრში, ხოლო პიროვნების შემდგომი თვალყურის დევნება შეიძლება განხორციელდეს ექსკლუზიურად პოზების წინასწარმეტყველების გამოყენებით გარკვეული პოზების გასწორების შემდეგ. პარამეტრები, რომელთა პროგნოზირება ხდება პოზის შეფასების მოდელის გამოყენებით.

სახე აწარმოებს ყველაზე ძლიერ სიგნალს ტორსის პოზიციის შესახებ ნერვული ქსელისთვის, გარეგნობის შედარებით მცირე განსხვავებისა და მისი მახასიათებლების მაღალი კონტრასტის შედეგად. შესაბამისად, შესაძლებელია შეიქმნას სწრაფი, დაბალი ოვერჰედის სისტემა პოზების აღმოსაჩენად მთელი რიგი დასაბუთებული ვარაუდების მეშვეობით, რომლებიც დაფუძნებულია იმ აზრზე, რომ ადამიანის თავი შეიძლება განთავსდეს ყველა პირადი გამოყენების შემთხვევაში.

ადამიანის პოზის შეფასების გამოწვევების დაძლევა

ფიტნეს აპებში პოზების შეფასების გამოყენება აწყდება ადამიანის პოზების დიდი მოცულობის გამოწვევას, მაგალითად, ასობით ასანას უმეტეს იოგაში. 

გარდა ამისა, სხეული ზოგჯერ ბლოკავს გარკვეულ კიდურებს, როგორც ეს არის გადაღებული ნებისმიერი მოცემული კამერით, მომხმარებლებს შეუძლიათ აცვიათ მრავალფეროვანი სამოსი, რომელიც ფარავს სხეულის მახასიათებლებს და პირად გარეგნობას.

ნებისმიერი წინასწარ მომზადებული მოდელის გამოყენებისას გაითვალისწინეთ, რომ სხეულის უჩვეულო მოძრაობებმა ან კამერის უცნაურმა კუთხეებმა შეიძლება გამოიწვიოს შეცდომები ადამიანის პოზის შეფასებაში. ჩვენ შეგვიძლია ეს პრობლემა გარკვეულწილად შევამსუბუქოთ ადამიანის სხეულის სამგანზომილებიანი მოდელის სინთეზური მონაცემების გამოყენებით, ან მოცემული დომენისთვის სპეციფიკური მონაცემების დაზუსტებით.

კარგი ამბავი ის არის, რომ ჩვენ შეგვიძლია თავიდან ავიცილოთ ან შევამსუბუქოთ სისუსტეების უმრავლესობა. ამის გასაღები არის სწორი ტრენინგის მონაცემების შერჩევა და მოდელის არქიტექტურა. გარდა ამისა, განვითარების ტენდენცია ადამიანის პოზის შეფასების ტექნოლოგიის სფეროში ვარაუდობს, რომ ზოგიერთი საკითხი, რომელსაც ახლა ვაწყდებით, ნაკლებად აქტუალური იქნება მომდევნო წლებში.

საბოლოო სიტყვა

ადამიანის პოზის შეფასება შეიცავს მრავალფეროვან პოტენციურ სამომავლო გამოყენებას ფიტნეს აპლიკაციების არეალის გარეთ და ადამიანის მოძრაობების თვალყურის დევნებას, თამაშიდან ანიმაციამდე, გაძლიერებული რეალობამდე რობოტიკამდე. ეს არ წარმოადგენს შესაძლებლობების სრულ ჩამონათვალს, მაგრამ ხაზს უსვამს ზოგიერთ ყველაზე სავარაუდო სფეროს, სადაც ადამიანის პოზის შეფასება ხელს შეუწყობს ჩვენს ციფრულ ლანდშაფტს.

Maksym-ს სურს მოიპოვოს ახალი შეხედულებები და გამოცდილება მონაცემთა მეცნიერებაში და მანქანათმცოდნეობაში. ის განსაკუთრებით დაინტერესებულია Deep Learning-ზე დაფუძნებული ტექნოლოგიებით და მათი გამოყენება ბიზნეს გამოყენების შემთხვევაში.