στέλεχος Ρομπότ που μπορούν να μάθουν περίπλοκες εργασίες από λίγες επιδείξεις - Unite.AI
Συνδεθείτε μαζί μας

Ρομποτική

Ρομπότ που μπορούν να μάθουν περίπλοκες εργασίες από λίγες επιδείξεις

Ενημερώθηκε on

Σε μια από τις τελευταίες εξελίξεις στον τομέα της ρομποτικής, ερευνητές στο Πανεπιστήμιο της Νότιας Καλιφόρνια (USC) ανέπτυξαν ένα σύστημα όπου τα ρομπότ μπορούν να μάθουν περίπλοκες εργασίες με λίγες επιδείξεις. Ακόμη πιο εντυπωσιακό, μερικές από τις επιδείξεις μπορεί να είναι ατελείς.

Η έρευνα παρουσιάστηκε στο συνέδριο για τη μάθηση με ρομπότ (CoRL) στις 18 Νοεμβρίου, με τίτλο «Μάθηση από επιδείξεις με χρήση χρονικής λογικής σήματος».

Το Σύστημα

Η ποιότητα κάθε επίδειξης μετριέται έτσι ώστε το σύστημα να μπορεί να μάθει από τις επιτυχίες και τις αποτυχίες του. Σε αντίθεση με τις τρέχουσες μεθόδους, που απαιτούν τουλάχιστον 100 επιδείξεις για τη διδασκαλία μιας συγκεκριμένης εργασίας, το νέο σύστημα απαιτεί μόνο λίγες. Με διαισθητικό τρόπο, ο τρόπος που μαθαίνουν αυτά τα ρομπότ είναι παρόμοιος με τον τρόπο που μαθαίνουν οι άνθρωποι ο ένας από τον άλλο. Για παράδειγμα, οι άνθρωποι παρακολουθούν και μαθαίνουν από τους άλλους να ολοκληρώνουν εργασίες επιτυχώς ή ατελώς.

Ο Aniruddh Puranic είναι ο κύριος συγγραφέας της έρευνας και Ph.D. φοιτητής στην επιστήμη των υπολογιστών στο USC Viterbi School of Engineering.

«Πολλά συστήματα μηχανικής μάθησης και ενισχυτικής μάθησης απαιτούν μεγάλες ποσότητες δεδομένων και εκατοντάδες επιδείξεις – χρειάζεστε έναν άνθρωπο για να το επιδεικνύει ξανά και ξανά, κάτι που δεν είναι εφικτό», είπε ο Puranic.

«Επίσης, οι περισσότεροι άνθρωποι δεν έχουν γνώσεις προγραμματισμού για να δηλώσουν ρητά τι πρέπει να κάνει το ρομπότ και ένας άνθρωπος δεν μπορεί να αποδείξει όλα όσα χρειάζεται να γνωρίζει ένα ρομπότ», συνέχισε. «Τι γίνεται αν το ρομπότ συναντήσει κάτι που δεν έχει ξαναδεί; Αυτή είναι μια βασική πρόκληση».

Οι ερευνητές χρησιμοποίησαν τη «χρονική λογική σήματος» ή STL για να προσδιορίσουν την ποιότητα των επιδείξεων, ταξινομώντας τις ανάλογα και δημιουργώντας εγγενείς ανταμοιβές.

Υπάρχουν δύο κύριοι λόγοι που οι ερευνητές αποφάσισαν για το STL:

  1. Με τη μάθηση μέσω επιδείξεων, τα ρομπότ μπορούν να εντοπίσουν ατέλειες ή ακόμα και μη ασφαλείς συμπεριφορές και ανεπιθύμητες ενέργειες.
  2. Οι επιδείξεις μπορεί να διαφέρουν σε ποιότητα ανάλογα με τον χρήστη που τις παρέχει και ορισμένες επιδείξεις είναι καλύτεροι δείκτες της επιθυμητής συμπεριφοράς από άλλες.

Αναπτύσσοντας το σύστημα με αυτόν τον τρόπο, το ρομπότ μπορεί ακόμα να μάθει από τις ατελείς επιδείξεις, ακόμα κι αν δεν πληρούν τις λογικές απαιτήσεις. Με άλλα λόγια, βγάζει το δικό του συμπέρασμα για την ακρίβεια ή την επιτυχία.

Ο Στέφανος Νικολαΐδης είναι συν-συγγραφέας και επίκουρος καθηγητής επιστήμης υπολογιστών στο USC Viterbi.

«Ας υποθέσουμε ότι τα ρομπότ μαθαίνουν από διαφορετικούς τύπους επιδείξεων – θα μπορούσε να είναι μια πρακτική επίδειξη, βίντεο ή προσομοιώσεις – εάν κάνω κάτι που δεν είναι ασφαλές, οι τυπικές προσεγγίσεις θα κάνουν ένα από τα δύο πράγματα: είτε, θα το αγνοήσουν εντελώς , ή ακόμα χειρότερα, το ρομπότ θα μάθει το λάθος πράγμα», λέει ο Νικολαΐδης.

«Αντίθετα, με πολύ έξυπνο τρόπο, αυτό το έργο χρησιμοποιεί κάποιους συλλογισμούς κοινής λογικής με τη μορφή λογικής για να καταλάβει ποια μέρη της επίδειξης είναι καλά και ποια μέρη όχι», συνεχίζει. «Στην ουσία, αυτό ακριβώς κάνουν και οι άνθρωποι».

Χρονική Λογική Σήματος

Τα ρομπότ μπορούν να συλλογιστούν σχετικά με τα τρέχοντα και μελλοντικά αποτελέσματα μέσω της STL, η οποία είναι μια εκφραστική μαθηματική συμβολική γλώσσα. Προηγουμένως στο STL, η έρευνα βασιζόταν στη «γραμμική χρονική λογική».

Ο Jyo Deshmukh είναι πρώην μηχανικός της Toyota και επίκουρος καθηγητής επιστήμης υπολογιστών στο USC.

«Όταν μπαίνουμε στον κόσμο των φυσικών συστημάτων στον κυβερνοχώρο, όπως τα ρομπότ και τα αυτοοδηγούμενα αυτοκίνητα, όπου ο χρόνος είναι ζωτικής σημασίας, η γραμμική χρονική λογική γίνεται λίγο περίπλοκη, επειδή αιτιολογεί ακολουθίες αληθών/ψευδών τιμών για μεταβλητές, ενώ το STL επιτρέπει τη λογική φυσικά σήματα», λέει ο Deshmukh.

Η ομάδα των ερευνητών εξεπλάγη από το επίπεδο επιτυχίας του συστήματος.

«Σε σύγκριση με έναν αλγόριθμο αιχμής, που χρησιμοποιείται εκτενώς σε εφαρμογές ρομποτικής, βλέπετε μια διαφορά τάξης μεγέθους στο πόσες επιδείξεις απαιτούνται», λέει ο Νικολαΐδης.

Σύμφωνα με τους ερευνητές, τα συστήματα θα μπορούσαν να μάθουν από προσομοιωτές οδήγησης και τελικά βίντεο. Το επόμενο βήμα είναι να το δοκιμάσετε σε πραγματικά ρομπότ, καθώς η αρχική δοκιμή έγινε σε προσομοιωτή παιχνιδιού. Το σύστημα θα είναι χρήσιμο για εφαρμογές όπως αυτές σε οικιακά περιβάλλοντα, αποθήκες και ρόβερ εξερεύνησης διαστήματος.

«Αν θέλουμε τα ρομπότ να είναι καλοί συμπαίκτες και να βοηθούν τους ανθρώπους, πρώτα πρέπει να μάθουν και να προσαρμοστούν στις ανθρώπινες προτιμήσεις πολύ αποτελεσματικά», λέει ο Νικολαΐδης. "Η μέθοδός μας το παρέχει αυτό."

Ο Alex McFarland είναι δημοσιογράφος και συγγραφέας AI που εξερευνά τις τελευταίες εξελίξεις στην τεχνητή νοημοσύνη. Έχει συνεργαστεί με πολλές startups και εκδόσεις AI παγκοσμίως.