Ρομποτική
Επιστήμονες Υπολογιστών Χρησιμοποιούν Θετική Ενίσχυση για τη Διδασκαλία Ρομπότ

Επιστήμονες υπολογιστών στο Πανεπιστήμιο Johns Hopkins έχουν αναπτύξει την μακροχρόνια τεχνική εκπαίδευσης της θετικής ενίσχυσης, η οποία χρησιμοποιείται συχνά για την εκπαίδευση ζώων όπως τα σκυλιά, σε ένα ρομπότ seh ότι θα μπορούσε να διδάξει τον εαυτό του νέα κόλπα. Μεταξύ αυτών των νέων δεξιοτήτων ήταν η ικανότητα να στοιβάζει μπλοκ.
Το ρομπότ ονομάζεται Spot, και σύμφωνα με τους ερευνητές, μπορεί να μάθει δεξιότητες μέσα σε ημέρες που παραδοσιακά χρειάζονταν περίπου einen μήνα.
Θετική Ενίσχυση
Η θετική ενίσχυση χρησιμοποιήθηκε από την ομάδα για να αυξήσει το σύνολο των δεξιοτήτων του ρομπότ. Η ταχύτητα με την οποία η ομάδα μπόρεσε να το κάνει αυτό καθιστά ευκολότερη την ανάπτυξη ρομπότ αυτού του τύπου στον πραγματικό κόσμο.
Το έργο δημοσιεύθηκε στο IEEE Robotics and Automation Letters, με τίτλο “Good Robot!: Efficient Reinforcement Learning for Multi-Step Visual Tasks with Sim to Real Transfer.”
Ο Andrew Hundt είναι φοιτητής διδακτορικού στο Πανεπιστήμιο Johns Hopkins και κύριος συγγραφέας της έρευνας.
“Το ερώτημα εδώ ήταν πώς θα πάρουμε το ρομπότ να μάθει μια δεξιότητα;” είπε. “Έχω είχε σκυλιά,所以 ξέρω ότι οι ανταμοιβές λειτουργούν και αυτή ήταν η έμπνευση για τον τρόπο με τον οποίο σχεδίασα τον αλγόριθμο μάθησης.”
Ένας από τους λόγους που η θετική ενίσχυση λειτουργεί στους υπολογιστές είναι ότι δεν έχουν εύκολη κατανόηση, που σημαίνει ότι είναι βασικά ένα κενό καμβάς στο οποίο μπορεί να προβληθεί οτιδήποτε. Με άλλα λόγια, πρέπει να μάθουν τα πάντα από το μηδέν. Một από τις πιο αποτελεσματικές μεθόδους μάθησης για τους υπολογιστές είναι η δοκιμή και λάθος, κάτι που οι ρομποτικοί εξακολουθούν να εργάζονται σήμερα.
Αυτή είναι ακριβώς αυτό που έκαναν οι ερευνητές όταν δημιούργησαν ένα σύστημα ανταμοιβής για το ρομπότ, παρόμοιο με τη διαδικασία εκπαίδευσης ενός σκύλου δίνοντάς του λιχουδιές. Η διαφορά είναι ότι το ρομπότ θα λαμβάνει αριθμητικές μονάδες όταν ολοκληρώσει μια εργασία σωστά.
https://www.youtube.com/watch?v=dvxqjJBWFD4
Δεξιότητες που Μάθκαν
Όταν ήρθε η ώρα να μάθει πώς να στοιβάζει μπλοκ, το ρομπότ έπρεπε να μάθει να επικεντρωθεί στις κατασκευαστικές ενέργειες. Στη μέθοδο, το ρομπότ Spot έλαβε υψηλότερες μονάδες όταν ολοκλήρωσε σωστές συμπεριφορές κατά τη στοίβαξη των μπλοκ. Στο αντίθετο άκρο, δεν έλαβε τίποτα για λανθασμένες συμπεριφορές. Έλαβε την υψηλότερη ποσότητα μονάδων ολοκληρώνοντας μια στοίβα τεσσάρων μπλοκ με το τελευταίο μπλοκ στην κορυφή.
Οι ερευνητές είδαν μεγάλη επιτυχία σε αυτή τη μέθοδο, με το ρομπότ να μάθει σε ημέρες αυτό που θα πήρε εβδομάδες στο παρελθόν. Εκπαιδεύοντας ένα προσομοιωμένο ρομπότ, η ομάδα μείωσε τον χρόνο εξάσκησης πριν μεταβεί στο ρομπότ Spot.
“Το ρομπότ θέλει το υψηλότερο σκορ,” είπε ο Hundt. “Γρήγορα μαθαίνει τη σωστή συμπεριφορά για να πάρει την καλύτερη ανταμοιβή. Πράγματι, πήρε ένα μήνα εξάσκησης για το ρομπότ να επιτύχει το 100% ακρίβεια. Μπορέσαμε να το κάνουμε σε δύο ημέρες.”
Εκτός από το να μάθει πώς να στοιβάζει μπλοκ, το ρομπότ χρησιμοποίησε επίσης τη θετική ενίσχυση για να μάθει άλλες εργασίες, όπως πώς να παίξει ένα προσομοιωμένο παιχνίδι πλοήγησης.
“Στην αρχή το ρομπότ δεν έχει ιδέα τι κάνει, αλλά θα γίνει καλύτερο και καλύτερο με κάθε εξάσκηση. Δεν σταματά ποτέ και συνεχίζει να προσπαθεί να στοιβάξει και μπορεί να ολοκληρώσει την εργασία 100% του χρόνου,” είπε ο Hundt.
Ορισμένες από τις πιθανές εφαρμογές αυτής της μεθόδου περιλαμβάνουν την εκπαίδευση οικιακών ρομπότ για την ολοκλήρωση ορισμένων εργασιών, καθώς και τη βελτίωση των αυτονομών οχημάτων.
“Ο στόχος μας είναι τελικά να αναπτύξουμε ρομπότ που μπορούν να κάνουν σύνθετες εργασίες στον πραγματικό κόσμο — όπως η συναρμολόγηση προϊόντων, η φροντίδα των ηλικιωμένων και η χειρουργική,” είπε ο Hager. “Δεν ξέρουμε ακόμη πώς να προγραμματίσουμε εργασίες όπως αυτές — ο κόσμος είναι πολύ σύνθετος. Αλλά η δουλειά σαν αυτή δείχνει ότι υπάρχει υποσχόμενη ιδέα ότι τα ρομπότ μπορούν να μάθουν πώς να ολοκληρώσουν τέτοιες πραγματικές εργασίες με ασφάλεια και αποτελεσματικότητα.












