στέλεχος Τι είναι η Βαθιά Ενισχυτική Μάθηση; - Unite.AI
Συνδεθείτε μαζί μας
Masterclass AI:

AI 101

Τι είναι η Βαθιά Ενισχυτική Μάθηση;

mm
Ενημερώθηκε on

Τι είναι η Βαθιά Ενισχυτική Μάθηση;

Μαζί με την μη εποπτευόμενη μηχανική μάθηση και την εποπτευόμενη μάθηση, μια άλλη κοινή μορφή δημιουργίας τεχνητής νοημοσύνης είναι η ενισχυτική μάθηση. Πέρα από την τακτική ενισχυτική μάθηση, μάθηση βαθιάς ενίσχυσης μπορεί να οδηγήσει σε εκπληκτικά εντυπωσιακά αποτελέσματα, χάρη στο γεγονός ότι συνδυάζει τις καλύτερες πτυχές τόσο της βαθιάς μάθησης όσο και της ενισχυτικής μάθησης. Ας ρίξουμε μια ματιά στο πώς ακριβώς λειτουργεί η βαθιά ενισχυτική μάθηση.

Πριν βουτήξουμε στη βαθιά ενισχυτική μάθηση, ίσως είναι καλή ιδέα να ανανεωθούμε σχετικά με το πόσο τακτικά ενίσχυση μάθησης έργα. Στην ενισχυτική μάθηση, οι αλγόριθμοι προσανατολισμένοι στο στόχο σχεδιάζονται μέσω μιας διαδικασίας δοκιμής και λάθους, βελτιστοποιώντας τη δράση που οδηγεί στο καλύτερο αποτέλεσμα/τη δράση που κερδίζει τη μεγαλύτερη «ανταμοιβή». Όταν εκπαιδεύονται αλγόριθμοι ενισχυτικής μάθησης, τους δίνονται «ανταμοιβές» ή «τιμωρίες» που επηρεάζουν τις ενέργειες που θα κάνουν στο μέλλον. Οι αλγόριθμοι προσπαθούν να βρουν ένα σύνολο ενεργειών που θα παρέχουν στο σύστημα τη μεγαλύτερη ανταμοιβή, εξισορροπώντας τόσο τις άμεσες όσο και τις μελλοντικές ανταμοιβές.

Οι αλγόριθμοι ενίσχυσης μάθησης είναι πολύ ισχυροί επειδή μπορούν να εφαρμοστούν σε σχεδόν κάθε εργασία, έχοντας τη δυνατότητα να μαθαίνουν με ευελιξία και δυναμική από ένα περιβάλλον και να ανακαλύπτουν πιθανές ενέργειες.

Επισκόπηση της Βαθιάς Ενισχυτικής Μάθησης

Φωτογραφία: Megajuice μέσω Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Όταν πρόκειται για βαθιά ενισχυτική μάθηση, το περιβάλλον αναπαρίσταται συνήθως με εικόνες. Μια εικόνα είναι μια αποτύπωση του περιβάλλοντος σε μια συγκεκριμένη χρονική στιγμή. Ο πράκτορας πρέπει να αναλύσει τις εικόνες και να εξάγει σχετικές πληροφορίες από αυτές, χρησιμοποιώντας τις πληροφορίες για να ενημερώσει ποια ενέργεια πρέπει να λάβει. Η βαθιά ενισχυτική μάθηση πραγματοποιείται συνήθως με μία από τις δύο διαφορετικές τεχνικές: μάθηση με βάση την αξία και μάθηση με βάση την πολιτική.

Οι τεχνικές μάθησης βάσει αξίας χρησιμοποιούν αλγόριθμους και αρχιτεκτονικές όπως συνελικτικά νευρωνικά δίκτυα και Deep-Q-Networks. Αυτοί οι αλγόριθμοι λειτουργούν μετατρέποντας την εικόνα σε κλίμακα του γκρι και κόβοντας περιττά μέρη της εικόνας. Στη συνέχεια, η εικόνα υφίσταται διάφορες συνελίξεις και λειτουργίες συγκέντρωσης, εξάγοντας τα πιο σχετικά τμήματα της εικόνας. Στη συνέχεια, τα σημαντικά μέρη της εικόνας χρησιμοποιούνται για τον υπολογισμό της τιμής Q για τις διάφορες ενέργειες που μπορεί να κάνει ο πράκτορας. Οι τιμές Q χρησιμοποιούνται για τον προσδιορισμό της καλύτερης πορείας δράσης για τον πράκτορα. Αφού υπολογιστούν οι αρχικές τιμές Q, πραγματοποιείται backpropagation προκειμένου να προσδιοριστούν οι πιο ακριβείς τιμές Q.

Μέθοδοι που βασίζονται σε πολιτικές χρησιμοποιούνται όταν ο αριθμός των πιθανών ενεργειών που μπορεί να κάνει ο πράκτορας είναι εξαιρετικά υψηλός, κάτι που συμβαίνει συνήθως σε σενάρια πραγματικού κόσμου. Καταστάσεις σαν αυτές απαιτούν διαφορετική προσέγγιση, επειδή ο υπολογισμός των τιμών Q για όλες τις επιμέρους ενέργειες δεν είναι ρεαλιστικός. Οι προσεγγίσεις που βασίζονται σε πολιτικές λειτουργούν χωρίς να υπολογίζουν τις τιμές συνάρτησης για μεμονωμένες ενέργειες. Αντίθετα, υιοθετούν πολιτικές μαθαίνοντας την πολιτική άμεσα, συχνά μέσω τεχνικών που ονομάζονται Διαβαθμίσεις Πολιτικής.

Οι κλίσεις πολιτικής λειτουργούν λαμβάνοντας μια κατάσταση και υπολογίζοντας τις πιθανότητες για ενέργειες με βάση τις προηγούμενες εμπειρίες του πράκτορα. Στη συνέχεια επιλέγεται η πιο πιθανή ενέργεια. Η διαδικασία αυτή επαναλαμβάνεται μέχρι το τέλος της περιόδου αξιολόγησης και οι ανταμοιβές δίνονται στον πράκτορα. Αφού οι ανταμοιβές έχουν αντιμετωπιστεί με τον πράκτορα, οι παράμετροι του δικτύου ενημερώνονται με backpropagation.

Τι είναι το Q-Learning;

Επειδή Q-Εκμάθηση είναι τόσο μεγάλο μέρος της διαδικασίας βαθιάς ενίσχυσης μάθησης, ας αφιερώσουμε λίγο χρόνο για να κατανοήσουμε πραγματικά πώς λειτουργεί το σύστημα Q-learning.

Η διαδικασία απόφασης Markov

Μια διαδικασία λήψης απόφασης Markov. Φωτογραφία: waldoalvarez μέσω Pixabay, Pixbay License (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Για να μπορέσει ένας πράκτορας τεχνητής νοημοσύνης να εκτελέσει μια σειρά εργασιών και να πετύχει έναν στόχο, ο πράκτορας πρέπει να είναι σε θέση να αντιμετωπίσει μια ακολουθία καταστάσεων και γεγονότων. Ο πράκτορας θα ξεκινήσει από μια κατάσταση και πρέπει να κάνει μια σειρά ενεργειών για να φτάσει σε μια τελική κατάσταση και μπορεί να υπάρχει ένας τεράστιος αριθμός καταστάσεων μεταξύ της αρχικής και της τελικής κατάστασης. Η αποθήκευση πληροφοριών σχετικά με κάθε κατάσταση είναι μη πρακτική ή αδύνατη, επομένως το σύστημα πρέπει να βρει έναν τρόπο να διατηρήσει μόνο τις πιο σχετικές πληροφορίες κατάστασης. Αυτό επιτυγχάνεται με τη χρήση του α Διαδικασία απόφασης Markov, το οποίο διατηρεί μόνο τις πληροφορίες σχετικά με την τρέχουσα κατάσταση και την προηγούμενη κατάσταση. Κάθε κατάσταση ακολουθεί μια ιδιότητα Markov, η οποία παρακολουθεί πώς ο πράκτορας αλλάζει από την προηγούμενη κατάσταση στην τρέχουσα κατάσταση.

Deep Q-Learning

Μόλις το μοντέλο έχει πρόσβαση σε πληροφορίες σχετικά με τις καταστάσεις του μαθησιακού περιβάλλοντος, μπορούν να υπολογιστούν οι τιμές Q. Οι τιμές Q είναι η συνολική ανταμοιβή που δίνεται στον πράκτορα στο τέλος μιας ακολουθίας ενεργειών.

Οι τιμές Q υπολογίζονται με μια σειρά ανταμοιβών. Υπάρχει μια άμεση ανταμοιβή, που υπολογίζεται στην τρέχουσα κατάσταση και ανάλογα με την τρέχουσα ενέργεια. Η τιμή Q για την επόμενη κατάσταση υπολογίζεται επίσης, μαζί με την τιμή Q για την κατάσταση μετά από αυτήν, και ούτω καθεξής μέχρι να υπολογιστούν όλες οι τιμές Q για τις διαφορετικές καταστάσεις. Υπάρχει επίσης μια παράμετρος Gamma που χρησιμοποιείται για τον έλεγχο του βάρους των μελλοντικών ανταμοιβών στις ενέργειες του πράκτορα. Οι πολιτικές συνήθως υπολογίζονται αρχικοποιώντας τυχαία τις τιμές Q και αφήνοντας το μοντέλο να συγκλίνει προς τις βέλτιστες τιμές Q κατά τη διάρκεια της εκπαίδευσης.

Deep Q-Networks

Ένα από τα θεμελιώδη προβλήματα που αφορά τη χρήση του Q-learning για την ενισχυτική μάθηση είναι ότι η ποσότητα της μνήμης που απαιτείται για την αποθήκευση δεδομένων επεκτείνεται γρήγορα καθώς αυξάνεται ο αριθμός των καταστάσεων. Τα Deep Q Networks λύνουν αυτό το πρόβλημα συνδυάζοντας μοντέλα νευρωνικών δικτύων με τιμές Q, επιτρέποντας σε έναν πράκτορα να μάθει από την εμπειρία και να κάνει εύλογες εικασίες σχετικά με τις καλύτερες ενέργειες που πρέπει να κάνει. Με τη βαθιά μάθηση Q, οι συναρτήσεις Q-value εκτιμώνται με νευρωνικά δίκτυα. Το νευρωνικό δίκτυο παίρνει την κατάσταση ως δεδομένα εισόδου και το δίκτυο εξάγει την τιμή Q για όλες τις διαφορετικές πιθανές ενέργειες που μπορεί να κάνει ο πράκτορας.

Το Deep Q-learning επιτυγχάνεται με την αποθήκευση όλων των προηγούμενων εμπειριών στη μνήμη, τον υπολογισμό των μέγιστων εξόδων για το δίκτυο Q και στη συνέχεια χρησιμοποιώντας μια συνάρτηση απώλειας για τον υπολογισμό της διαφοράς μεταξύ των τρεχουσών τιμών και των θεωρητικών υψηλότερων δυνατών τιμών.

Deep Reinforcement Learning vs Deep Learning

Μια σημαντική διαφορά μεταξύ της βαθιάς ενισχυτικής μάθησης και της τακτικής βαθιάς μάθησης είναι ότι στην περίπτωση της πρώτης οι εισροές αλλάζουν συνεχώς, κάτι που δεν συμβαίνει στην παραδοσιακή βαθιά μάθηση. Πώς μπορεί το μοντέλο μάθησης να λαμβάνει υπόψη εισόδους και εξόδους που αλλάζουν συνεχώς;

Ουσιαστικά, για να ληφθεί υπόψη η απόκλιση μεταξύ των προβλεπόμενων τιμών και των τιμών στόχου, μπορούν να χρησιμοποιηθούν δύο νευρωνικά δίκτυα αντί για ένα. Το ένα δίκτυο υπολογίζει τις τιμές-στόχους, ενώ το άλλο δίκτυο είναι υπεύθυνο για τις προβλέψεις. Οι παράμετροι του δικτύου στόχου ενημερώνονται καθώς μαθαίνει το μοντέλο, αφού έχει περάσει ένας επιλεγμένος αριθμός επαναλήψεων εκπαίδευσης. Στη συνέχεια, οι έξοδοι των αντίστοιχων δικτύων ενώνονται μεταξύ τους για να προσδιοριστεί η διαφορά.

Μάθηση με βάση την πολιτική

Μάθηση με βάση την πολιτική Οι προσεγγίσεις λειτουργούν διαφορετικά από τις προσεγγίσεις που βασίζονται στην τιμή Q. Ενώ οι προσεγγίσεις τιμής Q δημιουργούν μια συνάρτηση αξίας που προβλέπει ανταμοιβές για καταστάσεις και ενέργειες, οι μέθοδοι που βασίζονται σε πολιτικές καθορίζουν μια πολιτική που θα αντιστοιχίσει τις καταστάσεις σε ενέργειες. Με άλλα λόγια, η συνάρτηση πολιτικής που επιλέγει για ενέργειες βελτιστοποιείται άμεσα χωρίς να λαμβάνεται υπόψη η συνάρτηση τιμής.

Διαβαθμίσεις πολιτικής

Μια πολιτική για τη βαθιά ενισχυτική μάθηση εμπίπτει σε μία από τις δύο κατηγορίες: στοχαστική ή ντετερμινιστική. Μια ντετερμινιστική πολιτική είναι εκείνη όπου οι καταστάσεις αντιστοιχίζονται σε ενέργειες, που σημαίνει ότι όταν δίνονται στην πολιτική πληροφορίες σχετικά με μια κατάσταση, μια ενέργεια επιστρέφεται. Εν τω μεταξύ, οι στοχαστικές πολιτικές επιστρέφουν μια κατανομή πιθανότητας για ενέργειες αντί για μια μεμονωμένη, διακριτή ενέργεια.

Οι ντετερμινιστικές πολιτικές χρησιμοποιούνται όταν δεν υπάρχει αβεβαιότητα σχετικά με τα αποτελέσματα των ενεργειών που μπορούν να ληφθούν. Με άλλα λόγια, όταν το ίδιο το περιβάλλον είναι ντετερμινιστικό. Αντίθετα, τα στοχαστικά αποτελέσματα πολιτικής είναι κατάλληλα για περιβάλλοντα όπου το αποτέλεσμα των ενεργειών είναι αβέβαιο. Συνήθως, τα σενάρια ενισχυτικής μάθησης περιλαμβάνουν κάποιο βαθμό αβεβαιότητας, επομένως χρησιμοποιούνται στοχαστικές πολιτικές.

Οι προσεγγίσεις κλίσης πολιτικής έχουν μερικά πλεονεκτήματα σε σχέση με τις προσεγγίσεις Q-learning, καθώς και ορισμένα μειονεκτήματα. Όσον αφορά τα πλεονεκτήματα, οι μέθοδοι που βασίζονται σε πολιτικές συγκλίνουν σε βέλτιστες παραμέτρους ταχύτερα και πιο αξιόπιστα. Η κλίση πολιτικής μπορεί απλώς να ακολουθηθεί μέχρι να καθοριστούν οι καλύτερες παράμετροι, ενώ με μεθόδους που βασίζονται σε τιμές μικρές αλλαγές στις εκτιμώμενες τιμές ενεργειών μπορούν να οδηγήσουν σε μεγάλες αλλαγές στις ενέργειες και στις σχετικές παραμέτρους τους.

Οι κλίσεις πολιτικής λειτουργούν καλύτερα και για χώρους δράσης υψηλών διαστάσεων. Όταν υπάρχει ένας εξαιρετικά μεγάλος αριθμός πιθανών ενεργειών που πρέπει να γίνουν, η βαθιά μάθηση Q δεν είναι πρακτική, επειδή πρέπει να αποδίδει μια βαθμολογία σε κάθε δυνατή ενέργεια για όλα τα χρονικά βήματα, κάτι που μπορεί να είναι αδύνατο υπολογιστικά. Ωστόσο, με μεθόδους που βασίζονται σε πολιτικές, οι παράμετροι προσαρμόζονται με την πάροδο του χρόνου και ο αριθμός των πιθανών καλύτερων παραμέτρων συρρικνώνεται γρήγορα καθώς το μοντέλο συγκλίνει.

Οι κλίσεις πολιτικής είναι επίσης ικανές να εφαρμόζουν στοχαστικές πολιτικές, σε αντίθεση με τις πολιτικές που βασίζονται στην αξία. Επειδή οι στοχαστικές πολιτικές παράγουν μια κατανομή πιθανότητας, δεν χρειάζεται να εφαρμοστεί μια αντιστάθμιση εξερεύνησης/εκμετάλλευσης.

Όσον αφορά τα μειονεκτήματα, το κύριο μειονέκτημα των κλίσεων πολιτικής είναι ότι μπορούν να κολλήσουν κατά την αναζήτηση βέλτιστων παραμέτρων, εστιάζοντας μόνο σε ένα στενό, τοπικό σύνολο βέλτιστων τιμών αντί για τις καθολικές βέλτιστες τιμές.

Λειτουργία βαθμολογίας πολιτικής

Οι πολιτικές που χρησιμοποιούνται για τη βελτιστοποίηση του στόχου απόδοσης ενός μοντέλου για μεγιστοποίηση μιας συνάρτησης βαθμολογίας – J(θ). Αν J(θ) είναι ένα μέτρο του πόσο καλή είναι η πολιτική μας για την επίτευξη του επιθυμητού στόχου, μπορούμε να βρούμε τις τιμές του «θΑυτό μας δίνει την καλύτερη πολιτική. Αρχικά, πρέπει να υπολογίσουμε μια αναμενόμενη ανταμοιβή πολιτικής. Εκτιμούμε την ανταμοιβή της πολιτικής, ώστε να έχουμε έναν στόχο, κάτι προς το οποίο πρέπει να βελτιστοποιήσουμε. Η συνάρτηση βαθμολογίας πολιτικής είναι ο τρόπος με τον οποίο υπολογίζουμε την αναμενόμενη ανταμοιβή πολιτικής και υπάρχουν διαφορετικές συναρτήσεις βαθμολογίας πολιτικής που χρησιμοποιούνται συνήθως, όπως: τιμές έναρξης για επεισοδιακά περιβάλλοντα, η μέση τιμή για συνεχή περιβάλλοντα και η μέση ανταμοιβή ανά χρονικό βήμα.

Πολιτική Gradient Ascent

Η βαθμίδα ανάβασης στοχεύει να μετακινήσει τις παραμέτρους μέχρι να βρεθούν στο σημείο όπου η βαθμολογία είναι υψηλότερη. Φωτογραφία: Public Domain (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Αφού χρησιμοποιηθεί η επιθυμητή συνάρτηση βαθμολογίας πολιτικής και υπολογιστεί μια αναμενόμενη ανταμοιβή πολιτικής, μπορούμε να βρούμε μια τιμή για την παράμετρο "θ” που μεγιστοποιεί τη συνάρτηση βαθμολογίας. Για να μεγιστοποιηθεί η συνάρτηση βαθμολογίας J(θ), μια τεχνική που ονομάζεται "κλίση ανάβαση" χρησιμοποιείται. Η βαθμίδα ανάβασης είναι παρόμοια στην έννοια με την κλίση κατάβασης στη βαθιά μάθηση, αλλά βελτιστοποιούμε για την πιο απότομη αύξηση αντί για μείωση. Αυτό συμβαίνει επειδή η βαθμολογία μας δεν είναι «λάθος», όπως σε πολλά προβλήματα βαθιάς μάθησης. Το σκορ μας είναι κάτι που θέλουμε να μεγιστοποιήσουμε. Μια έκφραση που ονομάζεται Θεώρημα Κλίσης Πολιτικής χρησιμοποιείται για την εκτίμηση της κλίσης σε σχέση με την πολιτική "θ".

Σύνοψη Βαθιάς Ενισχυτικής Μάθησης

Συνοπτικά, η βαθιά ενισχυτική μάθηση συνδυάζει πτυχές της ενισχυτικής μάθησης και των βαθιών νευρωνικών δικτύων. Η βαθιά ενισχυτική μάθηση γίνεται με δύο διαφορετικές τεχνικές: Deep Q-learning και gradients πολιτικής.

Οι μέθοδοι Deep Q-learning στοχεύουν στο να προβλέψουν ποιες ανταμοιβές θα ακολουθήσουν ορισμένες ενέργειες που πραγματοποιούνται σε μια δεδομένη κατάσταση, ενώ οι προσεγγίσεις κλίσης πολιτικής στοχεύουν στη βελτιστοποίηση του χώρου δράσης, προβλέποντας τις ίδιες τις ενέργειες. Οι βασισμένες σε πολιτικές προσεγγίσεις στη βαθιά ενισχυτική μάθηση είναι είτε ντετερμινιστικές είτε στοχαστικές. Οι ντετερμινιστικές πολιτικές αντιστοιχούν τις καταστάσεις απευθείας σε ενέργειες, ενώ οι στοχαστικές πολιτικές παράγουν κατανομές πιθανοτήτων για ενέργειες.

Blogger και προγραμματιστής με ειδικότητες στο Μηχανική μάθηση και Βαθιά μάθηση Θέματα. Ο Daniel ελπίζει να βοηθήσει άλλους να χρησιμοποιήσουν τη δύναμη της τεχνητής νοημοσύνης για κοινωνικό καλό.