στέλεχος Η DeepMind αναφέρει νέα μέθοδο εκπαίδευσης Ενίσχυση εκμάθησης AI Safely - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Η DeepMind αναφέρει νέα μέθοδο εκπαίδευσης Ενίσχυση εκμάθησης AI με ασφάλεια

mm
Ενημερώθηκε on

Η ενισχυτική μάθηση είναι μια πολλά υποσχόμενη οδός ανάπτυξης τεχνητής νοημοσύνης, παράγοντας τεχνητή νοημοσύνη που μπορεί να χειριστεί εξαιρετικά πολύπλοκες εργασίες. Οι αλγόριθμοι ενισχυτικής τεχνητής νοημοσύνης χρησιμοποιούνται στη δημιουργία κινητών συστημάτων ρομποτικής και αυτοοδηγούμενων αυτοκινήτων μεταξύ άλλων εφαρμογών. Ωστόσο, λόγω του τρόπου με τον οποίο εκπαιδεύεται η ενισχυτική τεχνητή νοημοσύνη, μπορεί περιστασιακά να εκδηλώσουν περίεργες και απροσδόκητες συμπεριφορές. Αυτές οι συμπεριφορές μπορεί να είναι επικίνδυνες και οι ερευνητές της τεχνητής νοημοσύνης αναφέρονται σε αυτό το πρόβλημα ως το πρόβλημα της «ασφαλούς εξερεύνησης», όπου η τεχνητή νοημοσύνη κολλάει στην εξερεύνηση μη ασφαλών καταστάσεων.

Πρόσφατα, το ερευνητικό εργαστήριο τεχνητής νοημοσύνης της Google DeepMind κυκλοφόρησε μια εργασία που πρότεινε νέες μεθόδους για την αντιμετώπιση του προβλήματος της ασφαλούς εξερεύνησης και την ενίσχυση της εκπαίδευσης για την εκμάθηση τεχνητής νοημοσύνης με πιο ασφαλή τρόπο. Η μέθοδος που προτείνεται από το DeepMind διορθώνει επίσης το hacking ανταμοιβής ή τα κενά στα κριτήρια ανταμοιβής.

Η νέα μέθοδος της DeepMind έχει δύο διαφορετικά συστήματα που προορίζονται να καθοδηγούν τη συμπεριφορά του AI σε καταστάσεις όπου μπορεί να προκύψει μη ασφαλής συμπεριφορά. Τα δύο συστήματα που χρησιμοποιούνται από την τεχνική εκπαίδευσης του DeepMind είναι ένα μοντέλο παραγωγής και ένα μοντέλο δυναμικής προς τα εμπρός. Και τα δύο αυτά μοντέλα εκπαιδεύονται σε μια ποικιλία δεδομένων, όπως επιδείξεις από ειδικούς σε θέματα ασφάλειας και εντελώς τυχαίες τροχιές οχημάτων. Τα δεδομένα επισημαίνονται από έναν επόπτη με συγκεκριμένες τιμές ανταμοιβής και ο πράκτορας AI θα βρει μοτίβα συμπεριφοράς που θα του επιτρέψουν να συλλέξει τη μεγαλύτερη ανταμοιβή. Οι μη ασφαλείς καταστάσεις έχουν επίσης επισημανθεί και μόλις το μοντέλο καταφέρει να προβλέψει επιτυχώς τις ανταμοιβές και τις μη ασφαλείς καταστάσεις, αναπτύσσεται για να πραγματοποιήσει τις στοχευμένες ενέργειες.

Η ερευνητική ομάδα εξηγεί στην εργασία ότι η ιδέα είναι να δημιουργηθούν πιθανές συμπεριφορές από την αρχή, να προτείνονται οι επιθυμητές συμπεριφορές και να έχουν αυτά τα υποθετικά σενάρια όσο το δυνατόν πιο ενημερωτικά, αποφεύγοντας ταυτόχρονα την άμεση παρέμβαση στο μαθησιακό περιβάλλον. Η ομάδα του DeepMind αναφέρεται σε αυτήν την προσέγγιση ως ReQueST, ή σύνθεση ερωτημάτων ανταμοιβής μέσω βελτιστοποίησης τροχιάς.

Το ReQueST είναι ικανό να οδηγήσει σε τέσσερις διαφορετικούς τύπους συμπεριφοράς. Ο πρώτος τύπος συμπεριφοράς προσπαθεί να μεγιστοποιήσει την αβεβαιότητα σχετικά με τα μοντέλα ανταμοιβής συνόλου. Εν τω μεταξύ, η συμπεριφορά δύο και τριών επιχειρεί να ελαχιστοποιήσει και να μεγιστοποιήσει τις προβλεπόμενες ανταμοιβές. Οι προβλεπόμενες ανταμοιβές ελαχιστοποιούνται προκειμένου να οδηγήσουν στην ανακάλυψη συμπεριφορών που το μοντέλο μπορεί να προβλέπει λανθασμένα. Από την άλλη πλευρά, η προβλεπόμενη ανταμοιβή μεγιστοποιείται για να οδηγήσει σε ετικέτες συμπεριφοράς που διαθέτουν την υψηλότερη αξία πληροφοριών. Τέλος, ο τέταρτος τύπος συμπεριφοράς προσπαθεί να μεγιστοποιήσει την καινοτομία των τροχιών, ώστε το μοντέλο να συνεχίσει να εξερευνά ανεξάρτητα από τις ανταμοιβές που προβάλλονται.

Μόλις το μοντέλο φτάσει στο επιθυμητό επίπεδο συλλογής ανταμοιβών, χρησιμοποιείται ένας παράγοντας προγραμματισμού για τη λήψη αποφάσεων με βάση τις μαθημένες ανταμοιβές. Αυτό το σχήμα ελέγχου πρόβλεψης μοντέλου επιτρέπει στους πράκτορες να μάθουν να αποφεύγουν μη ασφαλείς καταστάσεις χρησιμοποιώντας το δυναμικό μοντέλο και προβλέποντας πιθανές συνέπειες, σε αντίθεση με τις συμπεριφορές των αλγορίθμων που μαθαίνουν μέσω καθαρής δοκιμής και λάθους.

Όπως αναφέρει το VentureBeat, οι ερευνητές του DeepMind πιστεύουν ότι το έργο τους είναι το πρώτο ενισχυτικό σύστημα μάθησης που είναι ικανό να μαθαίνει με ελεγχόμενο και ασφαλή τρόπο:

«Από όσα γνωρίζουμε, ο ReQueST είναι ο πρώτος αλγόριθμος μοντελοποίησης ανταμοιβής που μαθαίνει με ασφάλεια για μη ασφαλείς καταστάσεις και κλιμακώνει για την εκπαίδευση μοντέλων ανταμοιβής νευρωνικών δικτύων σε περιβάλλοντα με υψηλές διαστάσεις, συνεχείς καταστάσεις. Μέχρι στιγμής, έχουμε αποδείξει την αποτελεσματικότητα του ReQueST μόνο σε προσομοιωμένους τομείς με σχετικά απλή δυναμική. Μια κατεύθυνση για μελλοντική εργασία είναι να δοκιμάσετε το ReQueST σε τομείς 3D με πιο ρεαλιστική φυσική και άλλους παράγοντες που δρουν στο περιβάλλον.»

Blogger και προγραμματιστής με ειδικότητες στο Μηχανική μάθηση και Βαθιά μάθηση Θέματα. Ο Daniel ελπίζει να βοηθήσει άλλους να χρησιμοποιήσουν τη δύναμη της τεχνητής νοημοσύνης για κοινωνικό καλό.