Ρομποτική

Σύστημα AI που μπορεί να αναγνωρίζει χειρονομίες με ακρίβεια

Published August 14, 2020

Updated April 5, 2026

Alex McFarland

Ένα νέο σύστημα τεχνητής νοημοσύνης (AI) που είναι ικανό να αναγνωρίζει χειρονομίες έχει αναπτυχθεί από επιστήμονες από το Πανεπιστήμιο Nanyang Technological, Σιγκαπούρη (NTU Singapore). Η τεχνολογία λειτουργεί συνδυάζοντας ηλεκτρονικά που μοιάζουν με δέρμα με υπολογιστική όραση.

Η ανάπτυξη συστημάτων AI για την αναγνώριση χειρονομιών ανθρώπων έχει διαρκέσει περίπου 10 χρόνια και χρησιμοποιείται目前 σε χειρουργικά ρομπότ, εξοπλισμό παρακολούθησης υγείας και σε συστήματα παιχνιδιών.

Τα αρχικά συστήματα AI για αναγνώριση χειρονομιών ήταν μόνο οπτικά και έχουν ενταχθεί εισροές από αισθητήρες που φοριούνται για να τα βελτιώσουν. Αυτό ονομάζεται «σύντηξη δεδομένων». Μια από τις αισθητήριες ικανότητες ονομάζεται «σοματοαισθητική» και οι αισθητήρες που φοριούνται μπορούν να την αναπαράγουν.

Η ακρίβεια αναγνώρισης χειρονομιών εξακολουθεί να είναι δύσκολο να επιτευχθεί λόγω της χαμηλής ποιότητας δεδομένων που προέρχονται από αισθητήρες που φοριούνται. Αυτό συμβαίνει λόγω του όγκου και της κακής επαφής με τον χρήστη, καθώς και των επιπτώσεων των οπτικά εμποδισμένων αντικειμένων και της κακής φωτισμού.

Περισσότερες προκλήσεις προέρχονται από την ολοκλήρωση οπτικών και αισθητηριακών δεδομένων,既然 τα ανταγωνιστικά σύνολα δεδομένων πρέπει να επεξεργαστούν ξεχωριστά και τελικά να συγχωνευθούν στο τέλος. Αυτή η διαδικασία είναι ανεφάρμοστη και οδηγεί σε πιο αργές φορές απόκρισης.

Η ομάδα του NTU ανέπτυξε μερικούς τρόπους για να υπερβεί αυτές τις προκλήσεις, συμπεριλαμβανομένης της δημιουργίας ενός «βιομιμητικού» συστήματος σύντηξης δεδομένων που βασίζεται σε αισθητήρες τάσης που μοιάζουν με δέρμα και κατασκευάζονται από μονοστρωματικούς νανοσωλήνες άνθρακα. Η ομάδα βασίστηκε επίσης στην AI ως τρόπο να αναπαραστήσει πώς το δέρμα και η όραση επεξεργάζονται μαζί στο εγκέφαλο.

Τρεις προσεγγίσεις νευρωνικών δικτύων συνδυάστηκαν σε ένα σύστημα για την ανάπτυξη του συστήματος AI. Οι τρεις τύποι νευρωνικών δικτύων ήταν: ένα συνволυτικό νευρωνικό δίκτυο, ένα σπαρτικό νευρωνικό δίκτυο και ένα πολυστρωματικό νευρωνικό δίκτυο.

Συνδυάζοντας αυτά τα τρία, η ομάδα μπορούσε να αναπτύξει ένα σύστημα ικανό να αναγνωρίζει ανθρώπινες χειρονομίες με μεγαλύτερη ακρίβεια σε σύγκριση με άλλες μεθόδους.

Ο καθηγητής Chen Xiaodon είναι ο κύριος συγγραφέας της μελέτης. Είναι από το Τμήμα Επιστημών και Μηχανικής Υλικών στο NTU.

«Η αρχιτεκτονική σύντηξης δεδομένων μας έχει τις δικές της μοναδικές βιο-εμπνευσμένες λειτουργίες που περιλαμβάνουν ένα ανθρώπινο σύστημα που μοιάζει με την ιεραρχία σύντηξης σοματοαισθητικών-οπτικών στο εγκέφαλο. Πιστεύουμε ότι τέτοιες λειτουργίες κάνουν την αρχιτεκτονική μας μοναδική σε σχέση με τις υφιστάμενες προσεγγίσεις».

Ο Chen είναι επίσης Διευθυντής του Κέντρου Καινοτομίας για Εύκαμπτα Συσκευές (iFLEX) στο NTU.

«Σε σύγκριση με τους σκληρούς αισθητήρες που φοριούνται που δεν σχηματίζουν μια αρκετά στενή επαφή με τον χρήστη για ακριβή συλλογή δεδομένων, η καινοτομία μας χρησιμοποιεί αισθητήρες τάσης που είναι εύκαμπτοι και μπορούν να προσαρμοστούν άνετα στο ανθρώπινο δέρμα. Αυτό επιτρέπει την απόκτηση σήματος υψηλής ποιότητας, το οποίο είναι απαραίτητο για εργασίες αναγνώρισης υψηλής ακρίβειας», είπε ο Chen.

Τα ευρήματα της ομάδας που αποτελείται από επιστήμονες από το NTU Singapore και το Πανεπιστήμιο Τεχνολογίας της Σύδνεϋ (UTS) δημοσιεύθηκαν τον Ιούνιο στο επιστημονικό περιοδικό Nature Electronics.

Δοκιμή του Συστήματος

Η ομάδα δοκιμάσε το βιο-εμπνευσμένο σύστημα AI με ένα ρομπότ που ελέγχεται μέσω χειρονομιών. Το ρομπότ οδηγήθηκε μέσα από ένα λαβύρινθο και τα αποτελέσματα έδειξαν ότι το σύστημα AI για αναγνώριση χειρονομιών ήταν σε θέση να οδηγήσει το ρομπότ μέσα από το λαβύρινθο χωρίς λάθη. Αυτό σε σύγκριση με ένα σύστημα αναγνώρισης που βασίζεται μόνο στην όραση, το οποίο έκανε έξι λάθη στο ίδιο λαβύρινθο.

Δοκιμή υπό κακές συνθήκες, όπως θόρυβος και κακές συνθήκες φωτισμού, το σύστημα AI διατήρησε ακόμη υψηλή ακρίβεια. Ο ρυθμός ακρίβειας αναγνώρισης έφτασε πάνω από 96,7%.

Ο Δρ Wang Ming από το Τμήμα Επιστημών και Μηχανικής Υλικών στο NTU Singapore ήταν ο πρώτος συγγραφέας της μελέτης.

«Το μυστικό πίσω από την υψηλή ακρίβεια στη αρχιτεκτονική μας лежει στο γεγονός ότι η οπτική και σοματοαισθητική πληροφορία μπορούν να αλληλεπιδράσουν και να συμπληρώσουν η μια την άλλη σε ένα πρώιμο στάδιο πριν από την εκτέλεση σύνθετης ερμηνείας», είπε ο Ming. «Ως αποτέλεσμα, το σύστημα μπορεί να συλλέξει συνειδητά συνεκτική πληροφορία με λιγότερα περιττά δεδομένα και λιγότερη αισθητηριακή αμφιβολία, οδηγώντας σε καλύτερη ακρίβεια».

Σύμφωνα με μια ανεξάρτητη άποψη από τον καθηγητή Markus Antonietti, Διευθυντή του Ινστιτούτου Max Planck για τα Κολλοειδή και τις Διεπαφές στη Γερμανία, «Τα ευρήματα από αυτό το έγγραφο μας φέρνουν ένα βήμα πιο κοντά σε ένα έξυπνο και πιο υποστηριζόμενο από μηχανές κόσμο. Όπως η εφεύρεση του smartphone που έχει επανακατασκευάσει την κοινωνία, αυτή η εργασία μας δίνει ελπίδα ότι θα μπορούσαμε μια μέρα να ελέγχουμε φυσικά όλο τον κόσμο μας με μεγάλη αξιοπιστία και ακρίβεια μέσω μιας χειρονομίας».

«Υπάρχουν απλά ατελείωτες εφαρμογές για τέτοια τεχνολογία στην αγορά για να υποστηρίξουν αυτό το μέλλον. Για παράδειγμα, από τηλεχειρισμό ρομπότ σε έξυπνες εργασιακές περιοχές έως εξοσκελετούς για ηλικιωμένους».

Η ερευνητική ομάδα θα εργαστεί τώρα σε ένα σύστημα VR και AR που βασίζεται στο βιο-εμπνευσμένο σύστημα AI.

Alex McFarland

Ο Alex McFarland είναι δημοσιογράφος και συγγραφέας του AI που εξερευνά τις τελευταίες εξελίξεις στην τεχνητή νοημοσύνη. Έχει συνεργαστεί με πολλές startups και εκδόσεις του AI σε όλο τον κόσμο.

Unite.AI

Σύστημα AI που μπορεί να αναγνωρίζει χειρονομίες με ακρίβεια

Δοκιμή του Συστήματος

You may like