Τεχνητή νοημοσύνη
Ερευνητές αναπτύσσουν νέο αλγόριθμο αναγνώρισης χειρονομιών

Μια ομάδα ερευνητών με επικεφαλής τον Zhiyi Yu του Πανεπιστημίου Sun Yat-sen ανέπτυξε έναν νέο αλγόριθμο αναγνώρισης χειρονομιών που είναι πολύπλοκος, ακριβής και εφαρμόσιμος.
Οι χειρονομίες των χεριών υιοθετούνται ολοένα και περισσότερο για τις αλληλεπιδράσεις ανθρώπου-υπολογιστή και οι πρόσφατες εξελίξεις στα συστήματα κάμερας, την ανάλυση εικόνας και τη μηχανική εκμάθηση έχουν βελτιώσει σημαντικά την οπτική αναγνώριση χειρονομιών. Με τα παραπάνω, οι τρέχουσες μέθοδοι αντιμετωπίζουν πολλές προκλήσεις λόγω των περιορισμών στην υψηλή υπολογιστική πολυπλοκότητα, τη χαμηλή ταχύτητα, την κακή ακρίβεια και τον μικρό αριθμό αναγνωρίσιμων χειρονομιών.
Ο νέος αλγόριθμος που αναπτύχθηκε από την ομάδα επιχειρεί να ξεπεράσει αυτούς τους περιορισμούς και αναφέρθηκε λεπτομερώς σε μια εργασία που δημοσιεύτηκε στο Journal of Electronic Imaging. Ένας από τους κύριους στόχους της ομάδας ήταν να δημιουργήσει έναν αλγόριθμο που όχι μόνο ξεπερνά αυτές τις προκλήσεις, αλλά μπορεί επίσης να εφαρμοστεί εύκολα σε συσκευές σε επίπεδο καταναλωτή.
Προσαρμοστικότητα σε διαφορετικούς τύπους χεριών
Μία από τις πιο εντυπωσιακές πτυχές του αλγορίθμου είναι η προσαρμοστικότητά του σε διαφορετικούς τύπους χεριών. Αρχικά επιχειρεί να ταξινομήσει τον τύπο χεριού του χρήστη ως λεπτό, κανονικό ή φαρδύ. Αυτό το κάνει με βάση τρεις μετρήσεις που υπολογίζουν τις σχέσεις μεταξύ του πλάτους της παλάμης, του μήκους της παλάμης και του μήκους των δακτύλων.
Μετά από μια επιτυχημένη ταξινόμηση, η διαδικασία αναγνώρισης χειρονομίας συγκρίνει την κίνηση εισόδου με αποθηκευμένα δείγματα του ίδιου τύπου χεριού.
«Οι παραδοσιακοί απλοί αλγόριθμοι τείνουν να υποφέρουν από χαμηλά ποσοστά αναγνώρισης επειδή δεν μπορούν να αντιμετωπίσουν διαφορετικούς τύπους χεριών. Ταξινομώντας πρώτα τη χειρονομία εισόδου ανά τύπο χεριού και στη συνέχεια χρησιμοποιώντας βιβλιοθήκες δειγμάτων που ταιριάζουν με αυτόν τον τύπο, μπορούμε να βελτιώσουμε το συνολικό ποσοστό αναγνώρισης με σχεδόν αμελητέα κατανάλωση πόρων», λέει ο Yu.
Το βήμα της προαναγνώρισης
Η μέθοδος της ομάδας βασίζεται επίσης στη χρήση μιας «λειτουργίας συντόμευσης» για την εκτέλεση ενός βήματος προαναγνώρισης. Ο αλγόριθμος αναγνώρισης είναι σε θέση να αναγνωρίσει μια κίνηση εισόδου εννέα πιθανών χειρονομιών, αλλά είναι εξαιρετικά χρονοβόρο να συγκρίνετε όλα τα χαρακτηριστικά της κίνησης εισόδου με εκείνα των αποθηκευμένων δειγμάτων για όλες τις πιθανές χειρονομίες.
Για να ξεπεραστεί αυτό, το βήμα προαναγνώρισης του αλγορίθμου υπολογίζει μια αναλογία της περιοχής του χεριού για να επιλέξει τις τρεις πιο πιθανές χειρονομίες από τις πιθανές εννέα. Αυτό ανεβάζει τον αριθμό των υποψήφιων χειρονομιών σε τρεις και η τελική χειρονομία αποφασίζεται από πιο περίπλοκη και υψηλής ακρίβειας εξαγωγή χαρακτηριστικών με βάση τις "αμετάβλητες στιγμές Hu".
«Το βήμα προαναγνώρισης χειρονομιών όχι μόνο μειώνει τον αριθμό των υπολογισμών και των πόρων υλικού που απαιτούνται, αλλά βελτιώνει επίσης την ταχύτητα αναγνώρισης χωρίς να θέτει σε κίνδυνο την ακρίβεια», λέει ο Yu.
Ο αλγόριθμος δοκιμάστηκε σε έναν εμπορικό επεξεργαστή υπολογιστή και σε μια πλατφόρμα FPGA χρησιμοποιώντας μια κάμερα USB. Η ομάδα κάλεσε 40 εθελοντές να κάνουν τις εννέα χειρονομίες πολλές φορές και 40 ακόμη χρησιμοποιήθηκαν για τον προσδιορισμό της ακρίβειας του συστήματος.
Το σύστημα έδειξε ότι μπορούσε να αναγνωρίσει τις χειρονομίες σε πραγματικό χρόνο με ποσοστό ακρίβειας άνω του 93%. Αυτό συνέβαινε ακόμη και όταν οι εικόνες με χειρονομίες εισόδου περιστρέφονταν, μεταφράστηκαν ή κλιμακώθηκαν.
Οι ερευνητές λένε ότι τώρα θα επικεντρωθούν στη βελτίωση της απόδοσης του αλγορίθμου υπό διαφορετικές συνθήκες φωτισμού, καθώς και στην αύξηση του αριθμού των πιθανών χειρονομιών.