AI 101

Τι είναι η Ενισχυτική Μάθηση;

Ενημερώθηκε on Ιούνιος 5, 2021

Τι είναι η Ενισχυτική Μάθηση;

Με απλά λόγια, η ενισχυτική μάθηση είναι μια τεχνική μηχανικής μάθησης που περιλαμβάνει την εκπαίδευση ενός πράκτορα τεχνητής νοημοσύνης μέσω της επανάληψης των ενεργειών και των σχετικών ανταμοιβών. Ένας ενισχυτικός πράκτορας μάθησης πειραματίζεται σε ένα περιβάλλον, αναλαμβάνει ενέργειες και ανταμείβεται όταν γίνονται οι σωστές ενέργειες. Με τον καιρό ο πράκτορας μαθαίνει να κάνει τις ενέργειες που θα μεγιστοποιήσουν την ανταμοιβή του. Αυτός είναι ένας γρήγορος ορισμός της ενισχυτικής μάθησης, αλλά η προσεκτικότερη ματιά στις έννοιες πίσω από την ενισχυτική μάθηση θα σας βοηθήσει να αποκτήσετε μια καλύτερη, πιο διαισθητική κατανόησή της.

Ο όρος «ενισχυτική μάθηση» προσαρμόζεται από την έννοια του ενίσχυση στην ψυχολογία. Για αυτόν τον λόγο, ας αφιερώσουμε λίγο χρόνο για να κατανοήσουμε την ψυχολογική έννοια της ενίσχυσης. Με την ψυχολογική έννοια, ο όρος ενίσχυση αναφέρεται σε κάτι που αυξάνει την πιθανότητα να συμβεί μια συγκεκριμένη απάντηση/δράση. Αυτή η έννοια της ενίσχυσης είναι μια κεντρική ιδέα της θεωρίας της λειτουργικής προετοιμασίας, που προτάθηκε αρχικά από τον ψυχολόγο BF Skinner. Σε αυτό το πλαίσιο, ενίσχυση είναι οτιδήποτε προκαλεί την αύξηση της συχνότητας μιας δεδομένης συμπεριφοράς. Αν σκεφτούμε πιθανή ενίσχυση για τους ανθρώπους, αυτά μπορεί να είναι πράγματα όπως έπαινος, αύξηση στη δουλειά, καραμέλα και διασκεδαστικές δραστηριότητες.

Με την παραδοσιακή, ψυχολογική έννοια, υπάρχουν δύο είδη ενίσχυσης. Υπάρχει θετική ενίσχυση και αρνητική ενίσχυση. Η θετική ενίσχυση είναι η προσθήκη κάποιου στοιχείου για να αυξήσει τη συμπεριφορά του, όπως να δίνετε στον σκύλο σας μια λιχουδιά όταν έχει καλή συμπεριφορά. Η αρνητική ενίσχυση περιλαμβάνει την αφαίρεση ενός ερεθίσματος για την πρόκληση μιας συμπεριφοράς, όπως το κλείσιμο των δυνατών θορύβων για να πείσει έξω μια σκανδαλώδη γάτα.

Θετική & Αρνητική Ενίσχυση

Η θετική ενίσχυση αυξάνει τη συχνότητα μιας συμπεριφοράς ενώ η αρνητική ενίσχυση μειώνει τη συχνότητα. Γενικά, η θετική ενίσχυση είναι ο πιο κοινός τύπος ενίσχυσης που χρησιμοποιείται στην ενισχυτική μάθηση, καθώς βοηθά τα μοντέλα να μεγιστοποιήσουν την απόδοση σε μια δεδομένη εργασία. Όχι μόνο αυτό, αλλά η θετική ενίσχυση οδηγεί το μοντέλο σε πιο βιώσιμες αλλαγές, αλλαγές που μπορούν να γίνουν σταθερά πρότυπα και να διατηρηθούν για μεγάλα χρονικά διαστήματα.

Αντίθετα, ενώ η αρνητική ενίσχυση καθιστά επίσης πιο πιθανή μια συμπεριφορά, χρησιμοποιείται για τη διατήρηση ενός ελάχιστου προτύπου απόδοσης αντί για την επίτευξη της μέγιστης απόδοσης ενός μοντέλου. Η αρνητική ενίσχυση στην ενισχυτική μάθηση μπορεί να βοηθήσει να διασφαλιστεί ότι ένα μοντέλο διατηρείται μακριά από ανεπιθύμητες ενέργειες, αλλά δεν μπορεί πραγματικά να κάνει ένα μοντέλο να εξερευνήσει τις επιθυμητές ενέργειες.

Εκπαίδευση πράκτορα ενίσχυσης

Όταν εκπαιδεύεται ένας πράκτορας ενισχυτικής μάθησης, υπάρχουν τέσσερα διαφορετικά συστατικά or κράτη χρησιμοποιείται στην εκπαίδευση: αρχικές καταστάσεις (Κατάσταση 0), νέα κατάσταση (Κατάσταση 1), ενέργειες και ανταμοιβές.

Φανταστείτε ότι εκπαιδεύουμε έναν πράκτορα ενίσχυσης για να παίξει ένα βιντεοπαιχνίδι πλατφόρμας όπου ο στόχος του AI είναι να φτάσει στο τέλος του επιπέδου μετακινώντας ακριβώς την οθόνη. Η αρχική κατάσταση του παιχνιδιού αντλείται από το περιβάλλον, δηλαδή το πρώτο καρέ του παιχνιδιού αναλύεται και δίνεται στο μοντέλο. Με βάση αυτές τις πληροφορίες, το μοντέλο πρέπει να αποφασίσει για μια ενέργεια.

Κατά τις αρχικές φάσεις της εκπαίδευσης, αυτές οι ενέργειες είναι τυχαίες, αλλά καθώς το μοντέλο ενισχύεται, ορισμένες ενέργειες θα γίνονται πιο κοινές. Αφού γίνει η ενέργεια, το περιβάλλον του παιχνιδιού ενημερώνεται και δημιουργείται μια νέα κατάσταση ή πλαίσιο. Εάν η ενέργεια που έγινε από τον πράκτορα είχε ένα επιθυμητό αποτέλεσμα, ας πούμε σε αυτήν την περίπτωση ότι ο πράκτορας είναι ακόμα ζωντανός και δεν έχει χτυπηθεί από εχθρό, δίνεται κάποια ανταμοιβή στον πράκτορα και είναι πιο πιθανό να κάνει το ίδιο σε το μέλλον.

Αυτό το βασικό σύστημα επαναλαμβάνεται συνεχώς, συμβαίνει ξανά και ξανά, και κάθε φορά ο πράκτορας προσπαθεί να μάθει λίγο περισσότερα και να μεγιστοποιήσει την ανταμοιβή του.

Episodic vs Continuous Tasks

Οι εργασίες ενισχυτικής μάθησης μπορούν συνήθως να τοποθετηθούν σε μία από δύο διαφορετικές κατηγορίες: επεισοδιακές εργασίες και συνεχείς εργασίες.

Οι επεισοδιακές εργασίες θα πραγματοποιήσουν τον κύκλο μάθησης/εκπαίδευσης και θα βελτιώσουν την απόδοσή τους έως ότου εκπληρωθούν ορισμένα τελικά κριτήρια και η εκπαίδευση τερματιστεί. Σε ένα παιχνίδι, αυτό μπορεί να είναι να φτάσεις στο τέλος του επιπέδου ή να πέσεις σε κίνδυνο όπως αιχμές. Αντίθετα, οι συνεχείς εργασίες δεν έχουν κριτήρια τερματισμού, ουσιαστικά συνεχίζουν να εκπαιδεύονται για πάντα έως ότου ο μηχανικός επιλέξει να τερματίσει την εκπαίδευση.

Μόντε Κάρλο εναντίον Χρονικής Διαφοράς

Υπάρχουν δύο κύριοι τρόποι μάθησης ή εκπαίδευσης, ένας παράγοντας ενίσχυσης μάθησης. Σε η προσέγγιση του Μόντε Κάρλο, οι ανταμοιβές παραδίδονται στον πράκτορα (η βαθμολογία του ενημερώνεται) μόνο στο τέλος του εκπαιδευτικού επεισοδίου. Για να το θέσουμε διαφορετικά, μόνο όταν επιτευχθεί η συνθήκη τερματισμού, το μοντέλο μαθαίνει πόσο καλά απέδωσε. Στη συνέχεια, μπορεί να χρησιμοποιήσει αυτές τις πληροφορίες για ενημέρωση και όταν ξεκινήσει ο επόμενος γύρος εκπαίδευσης θα ανταποκριθεί σύμφωνα με τις νέες πληροφορίες.

Η μέθοδος χρονικής διαφοράς διαφέρει από τη μέθοδο Monte Carlo στο ότι η εκτίμηση της αξίας ή η εκτίμηση της βαθμολογίας ενημερώνεται κατά τη διάρκεια του εκπαιδευτικού επεισοδίου. Μόλις το μοντέλο προχωρήσει στο επόμενο βήμα, οι τιμές ενημερώνονται.

Εξερεύνηση vs Εκμετάλλευση

Η εκπαίδευση ενός πράκτορα ενίσχυσης μάθησης είναι μια πράξη εξισορρόπησης, που περιλαμβάνει την εξισορρόπηση δύο διαφορετικών μετρήσεων: εξερεύνηση και εκμετάλλευση.

Η εξερεύνηση είναι η πράξη συλλογής περισσότερων πληροφοριών για το περιβάλλον, ενώ η εξερεύνηση χρησιμοποιεί τις ήδη γνωστές πληροφορίες για το περιβάλλον για να κερδίσει πόντους ανταμοιβής. Εάν ένας πράκτορας εξερευνά μόνο και ποτέ δεν εκμεταλλεύεται το περιβάλλον, οι επιθυμητές ενέργειες δεν θα πραγματοποιηθούν ποτέ. Από την άλλη πλευρά, εάν ο πράκτορας εκμεταλλεύεται μόνο και δεν εξερευνά ποτέ, ο πράκτορας θα μάθει να εκτελεί μόνο μία ενέργεια και δεν θα ανακαλύψει άλλες πιθανές στρατηγικές για να κερδίσει ανταμοιβές. Επομένως, η εξισορρόπηση της εξερεύνησης και της εκμετάλλευσης είναι κρίσιμη κατά τη δημιουργία ενός παράγοντα ενίσχυσης μάθησης.

Χρήση Περιπτώσεων για Ενισχυτική Μάθηση

Η ενισχυτική μάθηση μπορεί να χρησιμοποιηθεί σε μεγάλη ποικιλία ρόλων και είναι η πλέον κατάλληλη για εφαρμογές όπου οι εργασίες απαιτούν αυτοματοποίηση.

Η αυτοματοποίηση των εργασιών που πρέπει να εκτελούνται από βιομηχανικά ρομπότ είναι ένας τομέας όπου η ενισχυτική μάθηση αποδεικνύεται χρήσιμη. Η ενισχυτική μάθηση μπορεί επίσης να χρησιμοποιηθεί για προβλήματα όπως η εξόρυξη κειμένου, δημιουργώντας μοντέλα που μπορούν να συνοψίσουν μεγάλα σώματα κειμένου. Οι ερευνητές πειραματίζονται επίσης με τη χρήση ενισχυτικής μάθησης στον τομέα της υγειονομικής περίθαλψης, με ενισχυτικούς παράγοντες που χειρίζονται εργασίες όπως η βελτιστοποίηση των πολιτικών θεραπείας. Η ενισχυτική μάθηση θα μπορούσε επίσης να χρησιμοποιηθεί για την προσαρμογή του εκπαιδευτικού υλικού για τους μαθητές.

Περίληψη Ενισχυτικής Μάθησης

Η ενισχυτική μάθηση είναι μια ισχυρή μέθοδος κατασκευής πρακτόρων AI που μπορεί να οδηγήσει σε εντυπωσιακά και μερικές φορές εκπληκτικά αποτελέσματα. Η εκπαίδευση ενός πράκτορα μέσω της ενισχυτικής μάθησης μπορεί να είναι περίπλοκη και δύσκολη, καθώς απαιτεί πολλές επαναλήψεις εκπαίδευσης και μια λεπτή ισορροπία της διχοτομίας εξερεύνησης/εκμετάλλευσης. Ωστόσο, εάν είναι επιτυχής, ένας πράκτορας που δημιουργήθηκε με ενισχυτική μάθηση μπορεί να εκτελέσει σύνθετες εργασίες σε μια μεγάλη ποικιλία διαφορετικών περιβαλλόντων.

Σχετικά θέματα:101

Επόμενο

Τι είναι το Δέντρο Απόφασης;

Μην χάσετε

Τι είναι το Deep Learning;

Ντάνιελ Νέλσον

Blogger και προγραμματιστής με ειδικότητες στο Μηχανική μάθηση και Βαθιά μάθηση Θέματα. Ο Daniel ελπίζει να βοηθήσει άλλους να χρησιμοποιήσουν τη δύναμη της τεχνητής νοημοσύνης για κοινωνικό καλό.

Unite.AI

Τι είναι η Ενισχυτική Μάθηση;

AI 101

Τι είναι η Ενισχυτική Μάθηση;

Πίνακας περιεχομένων

Τι είναι η Ενισχυτική Μάθηση;

Θετική & Αρνητική Ενίσχυση

Εκπαίδευση πράκτορα ενίσχυσης

Episodic vs Continuous Tasks

Μόντε Κάρλο εναντίον Χρονικής Διαφοράς

Εξερεύνηση vs Εκμετάλλευση

Χρήση Περιπτώσεων για Ενισχυτική Μάθηση

Περίληψη Ενισχυτικής Μάθησης

Unite.AI

Τι είναι η Ενισχυτική Μάθηση;

Πίνακας περιεχομένων

Τι είναι η Ενισχυτική Μάθηση;

Θετική & Αρνητική Ενίσχυση

Εκπαίδευση πράκτορα ενίσχυσης

Episodic vs Continuous Tasks

Μόντε Κάρλο εναντίον Χρονικής Διαφοράς

Εξερεύνηση vs Εκμετάλλευση

Χρήση Περιπτώσεων για Ενισχυτική Μάθηση

Περίληψη Ενισχυτικής Μάθησης

Μπορεί να σου αρέσει