Τεχνητή νοημοσύνη
DeepMind και Google Brain στοχεύουν να δημιουργήσουν μεθόδους για τη βελτίωση της αποδοτικότητας του ενισχυτικού μάθησης

Τα συστήματα ενισχυτικού μάθησης μπορούν να είναι ισχυρά και ανθεκτικά, ικανά να εκτελέσουν εξαιρετικά σύνθετες εργασίες μέσω χιλιάδων επαναλήψεων εκπαίδευσης. Ενώ οι αλγόριθμοι ενισχυτικού μάθησης είναι ικανοί να ενεργοποιούν σοφιστικές και περιστασιακά आश्चημές συμπεριφορές, χρειάζονται πολύ χρόνο για την εκπαίδευση και απαιτούν τεράστιες ποσότητες δεδομένων. Αυτά τα στοιχεία καθιστούν τις τεχνικές ενισχυτικού μάθησης μάλλον ανεπαρκείς, και πρόσφατα οι ερευνητικές ομάδες από το Alphabet DeepMind και το Google Brain έχουν επιχειρήσει να βρουν πιο αποτελεσματικές μεθόδους για τη δημιουργία συστημάτων ενισχυτικού μάθησης.
Όπως αναφέρθηκε από το VentureBeat, η συνδυασμένη ερευνητική ομάδα πρόσφατα πρότεινε μεθόδους για την καθίστανση της εκπαίδευσης του ενισχυτικού μάθησης πιο αποτελεσματικής. Μια από τις προτεινόμενες βελτιώσεις ήταν ένας αλγόριθμος που ονομάζεται Adaptive Behavior Policy Sharing (ABPS), ενώ η άλλη ήταν ένα πλαίσιο που ονομάζεται Universal Value Function Approximators (UVFA). Το ABPS επιτρέπει σε πισίνες από πράκτορες AI να μοιράζονται τις εμπειρίες τους που έχουν επιλεγεί προσαρμοστικά, ενώ το UVFA επιτρέπει στους πράκτορες AI να ερευνήσουν ταυτόχρονα τις πολιτικές εξερεύνησης με κατεύθυνση.
Το ABPS προορίζεται να επιταχύνει την εξατομίκευση των υπερπαραμέτρων κατά την εκπαίδευση eines μοντέλου. Το ABPS κάνει την εύρεση των βέλτιστων υπερπαραμέτρων πιο γρήγορη, επιτρέποντας σε πολλούς διαφορετικούς πράκτορες με διαφορετικές υπερπαράμετρους να μοιράζονται τις εμπειρίες τους από την πολιτική συμπεριφοράς. Για να είναι πιο ακριβής, το ABPS επιτρέπει στους πράκτορες του ενισχυτικού μάθησης να επιλέξουν ενέργειες από τις ενέργειες που μια πολιτική έχει κρίνει ότι είναι εντάξει και στη συνέχεια να λάβουν μια ανταμοιβή και παρατήρηση με βάση την επόμενη κατάσταση.
Οι πράκτορες AI του ενισχυτικού μάθησης εκπαιδεύονται με διάφορες συνδυασίες πιθανών υπερπαραμέτρων, όπως ο ρυθμός εκφύλισης και ο ρυθμός μάθησης. Κατά την εκπαίδευση ενός μοντέλου, ο στόχος είναι ότι το μοντέλο συγκλίνει στην συνδυασμένη υπερπαράμετρο που του δίνει την καλύτερη απόδοση, και σε αυτή την περίπτωση αυτές που επίσης βελτιώνουν την αποδοτικότητα των δεδομένων. Η αποδοτικότητα αυξάνεται με την εκπαίδευση πολλών πρακτόρων ταυτόχρονα και την επιλογή της συμπεριφοράς μόνο ενός πράκτορα για να αναπτυχθεί κατά το επόμενο βήμα. Η πολιτική που έχει ο στόχος πράκτορας χρησιμοποιείται για να δειγματίσει ενέργειες. Οι μεταβάσεις καταγράφονται σε ένα κοινό χώρο, και αυτός ο χώρος αξιολογείται συνεχώς, ώστε η επιλογή πολιτικής δεν χρειάζεται να συμβεί τόσο συχνά. Στο τέλος της εκπαίδευσης, ένας συνδυασμός πρακτόρων επιλέγεται και οι κορυφαίοι πράκτορες επιλέγονται για να υποβληθούν σε τελική ανάπτυξη.
Όσον αφορά το UVFA, αυτό προσπαθεί να αντιμετωπίσει ένα από τα κοινά προβλήματα του ενισχυτικού μάθησης, ότι οι ασθενώς ενισχυμένοι πράκτορες συχνά δεν μαθαίνουν καθήκοντα. Το UVFA προσπαθεί να λύσει το ζήτημα αυτό με το να κάνει τον πράκτορα να μάθει ένα ξεχωριστό σύνολο πολιτικών εκμετάλλευσης και εξερεύνησης ταυτόχρονα. Η διάκριση των καθηκόντων δημιουργεί ένα πλαίσιο που επιτρέπει στις πολιτικές εξερεύνησης να συνεχίσουν να εξερευνούν το περιβάλλον, ενώ οι πολιτικές εκμετάλλευσης συνεχίζουν να προσπαθούν να μεγιστοποιήσουν την ανταμοιβή για το τρέχον καθήκον. Οι πολιτικές εξερεύνησης του UVFA υπηρετούν ως μια βασική αρχιτεκτονική που θα συνεχίσει να βελτιώνεται ακόμη και αν δεν υπάρχουν φυσικές ανταμοιβές που βρέθηκαν. Σε τέτοια κατάσταση, μια συνάρτηση που αντιστοιχεί σε εσωτερικές ανταμοιβές προσεγγίζεται, η οποία ωθεί τους πράκτορες να εξερευνήσουν όλα τα κράτη σε ένα περιβάλλον, ακόμη και αν συχνά επιστρέφουν σε οικεία κράτη.
Όπως εξήγησε το VentureBeat, όταν το πλαίσιο UVFA είναι σε λειτουργία, οι εσωτερικές ανταμοιβές του συστήματος δίνονται απευθείας στον πράκτορα ως εισόδους. Ο πράκτορας στη συνέχεια διατηρεί μια αναπαράσταση όλων των εισόδων (όπως ανταμοιβές, ενέργειες και κατάσταση) κατά τη διάρκεια ενός επεισοδίου. Το αποτέλεσμα είναι ότι η ανταμοιβή διατηρείται με την πάροδο του χρόνου και η πολιτική του πράκτορα είναι τουλάχιστον κάπως ενημερωμένη από αυτήν σε όλες τις στιγμές.
Αυτό επιτυγχάνεται με τη χρήση ενός “εποχιακού νεωτερισμού” και ενός “δια βίου νεωτερισμού” mod. Η λειτουργία του πρώτου mod είναι να κρατήσει την τρέχουσα, εποχιακή μνήμη και να χαρτογραφήσει τις τρέχουσες ανακαλύψεις στην προαναφερθείσα αναπαράσταση, επιτρέποντας στον πράκτορα να καθορίσει μια εσωτερική εποχιακή ανταμοιβή για κάθε βήμα της εκπαίδευσης. Στη συνέχεια, η κατάσταση που συνδέεται με την τρέχουσα παρατήρηση προστίθεται στη μνήμη. Εν τω μεταξύ, ο δια βίου νεωτερισμός mod είναι υπεύθυνος για την επίδραση του πόσο συχνά ο πράκτορας εξερευνά κατά τη διάρκεια πολλών επεισοδίων.
Σύμφωνα με τις ομάδες του Alphabet/Google, οι νέες τεχνικές εκπαίδευσης έχουν ήδη δείξει το δυναμικό για σημαντική βελτίωση κατά την εκπαίδευση ενός συστήματος ενισχυτικού μάθησης. Το UVFA ήταν σε θέση να διπλασιάσει την απόδοση ορισμένων από τις βασικές πράκτορες που έπαιξαν διάφορα παιχνίδια Atari. Εν τω μεταξύ, το ABPS ήταν σε θέση να αυξήσει την απόδοση σε ορισμένα από τα ίδια παιχνίδια Atari, μειώνοντας τη διακύμανση μεταξύ των κορυφαίων πρακτόρων περίπου 25%. Ο αλγόριθμος UVFA που εκπαιδεύτηκε ήταν σε θέση να επιτύχει ένα υψηλό σκορ στο Pitfall από μόνο του, χωρίς κανένα μηχανικό χαρακτηριστικό ανθρώπινων demos.












