Τεχνητή νοημοσύνη

Το νέο AI της DeepMind μπορεί να μάθει τους κανόνες ενός παιχνιδιού καθώς το παίζει

Published December 27, 2020

Updated April 28, 2026

Daniel Nelson

Η θυγατρική της Alphabet, DeepMind, έχει αναπτύξει πρόσφατα ένα σύστημα AI που μπορεί να μάθει τους κανόνες ενός παιχνιδιού καθώς το παίζει. Ενώ η DeepMind έχει δημιουργήσει εντυπωσιακά μοντέλα AI που μπορούν να εξειδικευτούν σε παιχνίδια όπως το Σκάκι, το Σόγκι, το Γκο και τα βιντεοπαιχνίδια πριν, αυτά τα μοντέλα πρέπει να παρέχονται με τους κανόνες του παιχνιδιού από πριν. Ως takový, το νέο AI της DeepMind αντιπροσωπεύει μια αξιοσημείωτη βελτίωση σε σχέση με τις προηγούμενες αλγορίθμους AI που μάθαιναν να παίζουν παιχνίδια μέσω ενισχυτικής μάθησης.

Σύστημα AI – MuZero

Σε một έγγραφο πρόσφατα δημοσιευμένο στο περιοδικό Nature, η DeepMind περιέγραψε πώς λειτουργεί το νέο σύστημα AI. Το νέο AI, με το όνομα MuZero, μπορεί να μάθει τους κανόνες ενός παιχνιδιού καθώς το παίζει χάρη σε ένα principio που ονομάζεται “αναζήτηση προς τα εμπρός”. Όπως αναφέρθηκε από το Engadget, το MuZero χρησιμοποιεί την αναζήτηση προς τα εμπρός για να καθορίσει ποιες κινήσεις πρέπει να εκτελεστούν με βάση τις πιο πιθανές απαντήσεις από τους αντιπάλους.
Όταν λαμβάνονται υπόψη όλες οι πιθανές κινήσεις που θα μπορούσαν να γίνουν σε παιχνίδια όπως το σκάκι, το MuZero μπορεί να προτεραιοποιήσει, στενεύοντας τις κινήσεις σε απλές και σχετικές κινήσεις. Το MuZero θα μάθει και από επιτυχημένες και αποτυχημένες манέβρες. Αντί να μοντελοποιήσει όλα τα πιθανά παράγοντες, λαμβάνει υπόψη μόνο τους παράγοντες που είναι πιο σχετικοί με την απόφαση που πρέπει να ληφθεί. Το MuZero βασικά παίρνει το πλήθος των πιθανών متαιών που μπορούν να ληφθούν υπόψη και τις αποστάζει σε απλές και σημαντικές λειτουργίες. Αυτές οι λειτουργίες αντιπροσωπεύονται σε μια αλγόριθμο αναζήτησης με βάση το δέντρο. Οι πιθανότητες μέσα στο δέντρο συνδυάζονται με ένα μοντέλο που έχει μάθει με βάση τις λειτουργίες του περιβάλλοντος. Η αναζήτηση προς τα εμπρός πραγματοποιείται μετά την αναγνώριση των πιο σχετικών аспектων του περιβάλλοντος.
Για να ληφθεί μια τελική απόφαση, λαμβάνονται υπόψη τρεις παράγοντες.
Το MuZero λαμβάνει υπόψη το αποτέλεσμα της προηγούμενης επιλογής, τη τρέχουσα θέση που κατέχει και τις πιθανές ενέργειες που μπορεί να thựcέσει την επόμενη. Αυτή η προσέγγιση υπερβαίνει τις προηγούμενες προσεγγίσεις που χρησιμοποιήθηκαν από τη DeepMind, συμπεριλαμβανομένης της βασικής αναζήτησης προς τα εμπρός και των μοντέλων με βάση το δέντρο. Το MuZero αποδείχθηκε ότι είναι τουλάχιστον τόσο καλό στο σκάκι, το σόγκι και το γκο όσο και το AlphaZero, και όταν έπαιξε το παιχνίδι Ms. Pac-Man, το MuZero ήταν σε θέση να λάβει υπόψη μόνο γύρω στις έξι ή επτά κινήσεις κάθε φορά. Παρά αυτό το όριο, το AI ήταν ακόμη σε θέση να εκτελέσει πολύ καλά. Η DeepMind πειραματίστηκε επίσης με τις ικανότητες του MuZero, περιορίζοντας τον αριθμό των симуляσιών που μπορούσε να ολοκληρώσει πριν από την υποχρέωση να δεσμευτεί σε μια κίνηση. Γενικά, όσο περισσότερο χρόνο είχε το πρόγραμμα για να λάβει υπόψη τις πιθανές κινήσεις, τόσο καλύτερα εκτελούσε.
Ο επικεφαλής ερευνητικός επιστήμονας της DeepMind, David Silver, εξήγησε μέσω TechXplore ότι το MuZero είναι το πρώτο μοντέλο AI που μπορεί να δημιουργήσει τη δική του αναπαράσταση των κανόνων του περιβάλλοντος, χρησιμοποιώντας αυτή την αναπαράσταση για να σχεδιάσει ενέργειες.
“Για πρώτη φορά, έχουμε ένα σύστημα που είναι σε θέση ναสร้าง τη δική του κατανόηση του πώς λειτουργεί ο κόσμος και να χρησιμοποιήσει αυτή την κατανόηση για να κάνει αυτό το είδος σύνθετης αναζήτησης προς τα εμπρός που έχετε δει προηγουμένως για παιχνίδια όπως το σκάκι”, είπε ο Silver. “(Το MuZero) μπορεί να αρχίσει από το μηδέν και, απλώς μέσω της δοκιμής και του λάθους, να ανακαλύψει τους κανόνες του κόσμου και να χρησιμοποιήσει αυτούς τους κανόνες για να επιτύχει είδος υπεράνθρωπης απόδοσης.”

Πιθανές Εφαρμογές

Ένα AI που είναι πραγματικά σε θέση να μάθει τους περιορισμούς μιας εργασίας και να λειτουργήσει μέσα σε αυτούς τους περιορισμούς έχει eine ευρεία ποικιλία πιθανών εφαρμογών. Το MuZero θα μπορούσε να χρησιμοποιηθεί για εργασίες όπως η συμπίεση βίντεο, η οποία ιστορικά ήταν δύσκολο να αυτοματοποιηθεί χρησιμοποιώντας AI, λόγω των πολλών διαφορετικών, πιθανών μορφών βίντεο και τρόπων συμπίεσης. Το MuZero ήταν σε θέση να επιτύχει περίπου 5% βελτίωση της συμπίεσης. Αυτό θα μπορούσε να έχει επιπτώσεις για τον μεγάλο αριθμό βίντεο που φιλοξενούνται από τη Google και το YouTube. Πέρα από τα βίντεο, η DeepMind εξετάζει επίσης τη χρήση των ίδιων τεχνικών MuZero για τον σχεδιασμό αρχιτεκτονικής πρωτεϊνών και την προγραμματισμό ρομποτικής.
Σύμφωνα με την Wendy Hall, καθηγήτρια Πληροφορικής στο Πανεπιστήμιο του Southampton, το MuZero αντιπροσωπεύει “ένα σημαντικό βήμα προς τα εμπρός” για τις αλγορίθμους ενισχυτικής μάθησης. Ωστόσο, η Hall είναι обеспокоена ότι οι αλγόριθμοι θα μπορούσαν να χρησιμοποιηθούν λανθασμένα. Για παράδειγμα, το Αμερικανικό Πολεμικό Ναυτικό έχει ήδη αναφερθεί σε πρώιμες έρευνες που καλύπτουν το MuZero για να δημιουργήσει ένα σύστημα AI που θα μπορούσε να εκτοξεύσει βλήματα από αεροπλάνα-σκοπευτές U-2. Αυτό είναι παρά την αντίθετη άποψη των ερευνητών της DeepMind για τη χρήση των αλγορίθμων τους για οποιοδήποτε θανατηφόρο όπλο, υπογράφοντας τη Διακήρυξη για τα Αυτόνομα Θανατηφόρα Όπλα για να υποστηρίξουν ότι οποιαδήποτε θανατηφόρα τεχνολογία πρέπει να παραμείνει υπό τον έλεγχο του ανθρώπου.
Ο Silver εξήγησε ότι η DeepMind κοιτάζει στο μέλλον, με στόχο να αναπτύξει αλγορίθμους τόσο ισχυρούς και ευέλικτους όσο και ο εγκέφαλος. Το πρώτο βήμα για τη δημιουργία ευέλικτων αλγορίθμων είναι να κατανοήσουμε τι σημαίνει για ένα σύστημα να είναι έξυπνο, και η ευφυΐα συνδέεται με την ικανότητα να αναγνωρίσει τα πρότυπα και τους κανόνες ενός σύνθετου περιβάλλοντος.

Daniel Nelson

Blogger και προγραμματιστής με ειδικότητες στα Machine Learning και Deep Learning θέματα. Ο Daniel ελπίζει να βοηθήσει τους άλλους να χρησιμοποιήσουν τη δύναμη του AI για κοινωνικό καλό.

Unite.AI

Το νέο AI της DeepMind μπορεί να μάθει τους κανόνες ενός παιχνιδιού καθώς το παίζει

Σύστημα AI – MuZero

Πιθανές Εφαρμογές

You may like