στέλεχος Εκτίμηση θέσης AI στην εφαρμογή γυμναστικής - Unite.AI
Συνδεθείτε μαζί μας

Φροντίδα Υγείας

Εκτίμηση θέσης AI στην εφαρμογή γυμναστικής

mm

Δημοσιευμένα

 on

Από Maksym Tatariants, Data Science Engineer στο Μόμπιντεβ.

Η εκτίμηση ανθρώπινης στάσης αναφέρεται σε μια τεχνολογία – αρκετά νέα, αλλά εξελίσσεται γρήγορα – που παίζει σημαντικό ρόλο στις εφαρμογές γυμναστικής και χορού, επιτρέποντάς μας να τοποθετούμε ψηφιακό περιεχόμενο στον πραγματικό κόσμο.

Εν ολίγοις, η έννοια της εκτίμησης της ανθρώπινης στάσης είναι μια τεχνολογία που βασίζεται σε υπολογιστική όραση ικανή να ανιχνεύει και να επεξεργάζεται την ανθρώπινη στάση. Το πιο σημαντικό και κεντρικό μέρος αυτής της τεχνολογίας είναι η μοντελοποίηση του ανθρώπινου σώματος. Τρία μοντέλα σώματος είναι πιο εμφανή στα τρέχοντα συστήματα εκτίμησης ανθρώπινης στάσης – με βάση τον σκελετό, το περίγραμμα και τον όγκο.

Μοντέλο που βασίζεται σε σκελετό

Αυτό το μοντέλο αποτελείται από ένα σύνολο αρθρώσεων (σημεία κλειδιά), όπως γόνατα, αστραγάλους, καρπούς, αγκώνες, ώμους και τον προσανατολισμό των άκρων του σώματος. Αυτό το μοντέλο είναι αξιοσημείωτο για την ευελιξία του και ως τέτοιο είναι κατάλληλο τόσο για τρισδιάστατη όσο και για δισδιάστατη εκτίμηση ανθρώπινης στάσης. Με την τρισδιάστατη μοντελοποίηση, η λύση χρησιμοποιεί μια εικόνα RGB και βρίσκει τις συντεταγμένες X, Y και Z των αρθρώσεων. Με τη δισδιάστατη μοντελοποίηση, είναι η ίδια ανάλυση μιας εικόνας RGB, αλλά χρησιμοποιώντας τις συντεταγμένες X και Y.

Μοντέλο με βάση το περίγραμμα

Αυτό το μοντέλο χρησιμοποιεί τα περιγράμματα του κορμού και των άκρων του σώματος, καθώς και το τραχύ πλάτος τους. Εδώ, η λύση παίρνει τη σιλουέτα του πλαισίου του αμαξώματος και αποδίδει τα μέρη του σώματος ως ορθογώνια και όρια εντός αυτού του πλαισίου.

Μοντέλο βάσει όγκου

Αυτό το μοντέλο χρησιμοποιεί γενικά μια σειρά από τρισδιάστατες σαρώσεις για να αποτυπώσει το σχήμα του σώματος και το μετατρέπει σε ένα πλαίσιο σχημάτων και γεωμετρικών ματιών. Αυτά τα σχήματα δημιουργούν μια τρισδιάστατη σειρά από στάσεις και αναπαραστάσεις σώματος.

Πώς λειτουργεί η τρισδιάστατη εκτίμηση ανθρώπινης στάσης

Οι εφαρμογές γυμναστικής τείνουν να βασίζονται στην τρισδιάστατη εκτίμηση της ανθρώπινης στάσης. Για αυτές τις εφαρμογές, όσο περισσότερες πληροφορίες για την ανθρώπινη στάση, τόσο το καλύτερο. Με αυτήν την τεχνική, ο χρήστης της εφαρμογής θα καταγράψει τον εαυτό του να συμμετέχει σε μια ρουτίνα άσκησης ή προπόνησης. Στη συνέχεια, η εφαρμογή θα αναλύσει τις κινήσεις του σώματος του χρήστη, προσφέροντας διορθώσεις για λάθη ή ανακρίβειες.

Το διάγραμμα ροής αυτού του τύπου εφαρμογής ακολουθεί συνήθως αυτό το μοτίβο:

  • Αρχικά, συλλέξτε δεδομένα για τις κινήσεις του χρήστη ενώ εκτελεί την άσκηση.
  • Στη συνέχεια, καθορίστε πόσο σωστές ή λανθασμένες ήταν οι κινήσεις του χρήστη.
  • Τέλος, δείξτε στον χρήστη μέσω της διεπαφής ποια λάθη μπορεί να έχει κάνει.

Αυτή τη στιγμή, το πρότυπο στην τεχνολογία ανθρώπινης στάσης είναι Τοπολογία COCO. Η τοπολογία COCO αποτελείται από 17 ορόσημα σε όλο το σώμα, που κυμαίνονται από το πρόσωπο έως τα χέρια έως τα πόδια. Σημειώστε ότι το COCO δεν είναι το μόνο πλαίσιο στάσης ανθρώπινου σώματος, απλώς αυτό που χρησιμοποιείται πιο συχνά.

Αυτός ο τύπος διαδικασίας συνήθως χρησιμοποιεί τεχνολογία βαθιάς μηχανικής εκμάθησης για την εξαγωγή αρθρώσεων κατά την εκτίμηση της στάσης του χρήστη. Στη συνέχεια, χρησιμοποιεί αλγόριθμους βασισμένους στη γεωμετρία για να κατανοήσει αυτό που έχει βρεθεί (αναλύει τις σχετικές θέσεις των αρθρώσεων που ανιχνεύονται). Ενώ χρησιμοποιεί ένα δυναμικό βίντεο ως δεδομένα πηγής, το σύστημα μπορεί να χρησιμοποιήσει μια σειρά από καρέ, όχι μόνο μία εικόνα, για να καταγράψει τα βασικά του σημεία. Το αποτέλεσμα είναι μια πολύ πιο ακριβής απόδοση των πραγματικών κινήσεων του χρήστη, καθώς το σύστημα μπορεί να χρησιμοποιήσει πληροφορίες από τα παρακείμενα πλαίσια για να επιλύσει τυχόν αβεβαιότητες σχετικά με τη θέση του ανθρώπινου σώματος στο τρέχον πλαίσιο.

Από τις τρέχουσες τεχνικές για τη χρήση της εκτίμησης τρισδιάστατης πόζας σε εφαρμογές φυσικής κατάστασης, η πιο ακριβής προσέγγιση είναι να εφαρμοστεί πρώτα ένα μοντέλο για τον εντοπισμό σημείων κλειδιού 3D και στη συνέχεια να επεξεργαστεί τη δισδιάστατη ανίχνευση με ένα άλλο μοντέλο για να τα μετατρέψει σε προβλέψεις 2D σημείων κλειδιού. 

Στο έρευνα δημοσιεύσαμε πρόσφατα, χρησιμοποιήθηκε μία μόνο πηγή βίντεο, με συνελικτικά νευρωνικά δίκτυα με διευρυμένες χρονικές συνελίξεις που εφαρμόζονται για την εκτέλεση της μετατροπής 2D -> 3D σημείου κλειδιού.

Αφού αναλύσαμε τα μοντέλα που κυκλοφορούν αυτήν τη στιγμή, διαπιστώσαμε ότι το VideoPose3D είναι η λύση που είναι καλύτερα προσαρμοσμένη στις ανάγκες των περισσότερων εφαρμογών γυμναστικής που βασίζονται σε τεχνητή νοημοσύνη. Η είσοδος που χρησιμοποιεί αυτό το σύστημα θα πρέπει να επιτρέπει την ανίχνευση ενός δισδιάστατου συνόλου σημείων κλειδιών, όπου ένα μοντέλο, προεκπαιδευμένο στο σύνολο δεδομένων COCO 2017, εφαρμόζεται ως α 2D ανιχνευτής. 

Για την πιο ακριβή πρόβλεψη της θέσης μιας τρέχουσας άρθρωσης ή ενός σημείου κλειδιού, το VideoPose3D μπορεί να χρησιμοποιήσει πολλαπλά καρέ σε μια σύντομη χρονική περίοδο για να δημιουργήσει πληροφορίες 2D πόζας. 

Για να ενισχυθεί περαιτέρω η ακρίβεια της εκτίμησης πόζας 3D, περισσότερες από μία κάμερες μπορούν να συγκεντρώσουν εναλλακτικές απόψεις του χρήστη που εκτελεί την ίδια άσκηση ή ρουτίνα. Σημειώστε, ωστόσο, ότι απαιτεί μεγαλύτερη ισχύ επεξεργασίας καθώς και εξειδικευμένη αρχιτεκτονική μοντέλων για την αντιμετώπιση πολλαπλών εισόδων ροής βίντεο.

Πρόσφατα, η Google αποκαλυπτήρια Το σύστημά τους BlazePose, ένα μοντέλο προσανατολισμένο σε φορητές συσκευές για την εκτίμηση της ανθρώπινης στάσης αυξάνοντας τον αριθμό των σημείων κλειδιών που αναλύθηκαν σε 33, ένα υπερσύνολο του συνόλου σημείων κλειδιού COCO και δύο άλλες τοπολογίες – BlazePalm και BlazeFace. Ως αποτέλεσμα, το μοντέλο BlazePose μπορεί να παράγει αποτελέσματα πρόβλεψης στάσης σύμφωνα με τα μοντέλα χεριών και προσώπων, αρθρώνοντας τη σημασιολογία του σώματος.

Κάθε εξάρτημα σε ένα σύστημα εκτίμησης ανθρώπινης στάσης που βασίζεται στη μηχανική μάθηση πρέπει να είναι γρήγορο, απαιτώντας το πολύ μερικά χιλιοστά του δευτερολέπτου ανά καρέ για μοντέλα ανίχνευσης και παρακολούθησης πόζας. 

Λόγω του γεγονότος ότι ο αγωγός BlazePose (που περιλαμβάνει στοιχεία εκτίμησης πόζας και παρακολούθησης) πρέπει να λειτουργεί σε μια ποικιλία φορητών συσκευών σε πραγματικό χρόνο, κάθε μεμονωμένο τμήμα του αγωγού έχει σχεδιαστεί ώστε να είναι πολύ υπολογιστικά αποδοτικό και να τρέχει στα 200-1000 FPS .

Η εκτίμηση πόζας και η παρακολούθηση στο βίντεο όπου δεν είναι γνωστό εάν και πού είναι το άτομο γίνεται συνήθως σε δύο στάδια. 

Στο πρώτο στάδιο, εκτελείται ένα μοντέλο ανίχνευσης αντικειμένων για τον εντοπισμό της παρουσίας ενός ανθρώπου ή για τον εντοπισμό της απουσίας του. Αφού εντοπιστεί το άτομο, η μονάδα εκτίμησης στάσης μπορεί να επεξεργαστεί την εντοπισμένη περιοχή που περιέχει το άτομο και να προβλέψει τη θέση των σημείων-κλειδιών.

Ένα μειονέκτημα αυτής της ρύθμισης είναι ότι απαιτεί τόσο ενότητες ανίχνευσης αντικειμένων όσο και εκτίμησης θέσης να εκτελούνται για κάθε πλαίσιο που καταναλώνει επιπλέον υπολογιστικούς πόρους. Οι συντάκτες του BlazePose, ωστόσο, επινόησαν έναν έξυπνο τρόπο να ξεπεράσουν αυτό το ζήτημα και να τον χρησιμοποιήσουν αποτελεσματικά σε άλλες μονάδες ανίχνευσης σημείων κλειδιού, όπως FaceMesh και Χέρι MediaPipe.

Η ιδέα είναι ότι μια μονάδα ανίχνευσης αντικειμένων (ανιχνευτής προσώπου στην περίπτωση του BlazePose) μπορεί να χρησιμοποιηθεί μόνο για να ξεκινήσει η παρακολούθηση πόζας στο πρώτο καρέ, ενώ η επακόλουθη παρακολούθηση του ατόμου μπορεί να γίνει χρησιμοποιώντας αποκλειστικά τις προβλέψεις στάσης μετά από κάποια ευθυγράμμιση πόζας. παραμέτρους για τις οποίες προβλέπονται χρησιμοποιώντας το μοντέλο εκτίμησης πόζας.

Το πρόσωπο παράγει το ισχυρότερο σήμα ως προς τη θέση του κορμού για το νευρωνικό δίκτυο, ως αποτέλεσμα της σχετικά μικρής απόκλισης στην εμφάνιση και της υψηλής αντίθεσης στα χαρακτηριστικά του. Κατά συνέπεια, είναι δυνατό να δημιουργηθεί ένα γρήγορο, χαμηλού κόστους σύστημα για την ανίχνευση πόζας μέσω μιας σειράς δικαιολογημένων υποθέσεων που βασίζονται στην ιδέα ότι το ανθρώπινο κεφάλι θα μπορεί να εντοπιστεί σε κάθε περίπτωση προσωπικής χρήσης.

Ξεπερνώντας τις προκλήσεις της εκτίμησης της ανθρώπινης στάσης

Η χρήση της εκτίμησης πόζας σε εφαρμογές γυμναστικής αντιμετωπίζει την πρόκληση του τεράστιου όγκου των ανθρώπινων στάσεων, για παράδειγμα, των εκατοντάδων asanas στα περισσότερα σχήματα γιόγκα. 

Επιπλέον, το σώμα μερικές φορές μπλοκάρει ορισμένα άκρα όπως καταγράφονται από οποιαδήποτε κάμερα, οι χρήστες μπορεί να φορούν ποικίλα ρούχα που κρύβουν τα χαρακτηριστικά του σώματος και την προσωπική εμφάνιση.

Κατά τη χρήση οποιωνδήποτε προεκπαιδευμένων μοντέλων, σημειώστε ότι οι ασυνήθιστες κινήσεις του σώματος ή οι περίεργες γωνίες της κάμερας μπορεί να οδηγήσουν σε λάθη στην εκτίμηση της ανθρώπινης στάσης. Μπορούμε να μετριάσουμε αυτό το πρόβλημα σε κάποιο βαθμό χρησιμοποιώντας συνθετικά δεδομένα από απόδοση τρισδιάστατου μοντέλου ανθρώπινου σώματος ή βελτιστοποιώντας τα δεδομένα που αφορούν τον συγκεκριμένο τομέα.

Τα καλά νέα είναι ότι μπορούμε να αποφύγουμε ή να μετριάζουμε τις περισσότερες αδυναμίες. Το κλειδί για να γίνει αυτό είναι η επιλογή των σωστών δεδομένων εκπαίδευσης και της αρχιτεκτονικής μοντέλων. Επιπλέον, η τάση ανάπτυξης στον τομέα της τεχνολογίας εκτίμησης ανθρώπινης στάσης υποδηλώνει ότι ορισμένα από τα ζητήματα που αντιμετωπίζουμε τώρα θα είναι λιγότερο σχετικά τα επόμενα χρόνια.

Η τελευταία λέξη

Η εκτίμηση της ανθρώπινης πόζας περιέχει μια ποικιλία πιθανών μελλοντικών χρήσεων εκτός της περιοχής των εφαρμογών γυμναστικής και της παρακολούθησης των ανθρώπινων κινήσεων, από παιχνίδια έως κινούμενα σχέδια και Επαυξημένη πραγματικότητα έως ρομποτική. Αυτό δεν αντιπροσωπεύει μια πλήρη λίστα των δυνατοτήτων, αλλά υπογραμμίζει ορισμένες από τις πιο πιθανές περιοχές όπου η εκτίμηση της ανθρώπινης πόζας θα συμβάλει στο ψηφιακό μας τοπίο.

Η Maksym επιθυμεί να αποκτήσει νέες γνώσεις και εμπειρία στην Επιστήμη των Δεδομένων και τη Μηχανική Μάθηση. Ενδιαφέρεται ιδιαίτερα για τις τεχνολογίες που βασίζονται σε Deep Learning και την εφαρμογή τους σε περιπτώσεις επιχειρηματικής χρήσης.