Τεχνητή νοημοσύνη

Ερευνητές του AI Δημιουργούν Μοντέλο Παιχνιδιού Βίντεο που Μπορεί να Θυμάται Παλιά Γεγονότα

Published February 27, 2021

Updated April 28, 2026

Daniel Nelson

Một ομάδα ερευνητών στο εργαστήριο AI της Uber έχει πρόσφατα αναπτύξει ένα σύστημα αλγορίθμων AI που υπερέβη cả τους ανθρώπινους παίκτες και άλλα συστήματα AI στα κλασικά παιχνίδια Atari. Το σύστημα AI που αναπτύχθηκε από τους ερευνητές είναι ικανό να θυμάται προηγουμένως επιτυχημένες στρατηγικές, δημιουργώντας νέες στρατηγικές με βάση αυτά που δούλεψαν στο παρελθόν. Η ομάδα έρευνας της μελέτης πιστεύει ότι οι αλγόριθμοι που ανέπτυξαν έχουν πιθανές εφαρμογές σε άλλους τεχνικούς τομείς όπως η επεξεργασία γλώσσας και η ρομποτική.

Η τυπική μέθοδος που χρησιμοποιείται για τη δημιουργία συστημάτων AI ικανών να παίζουν βιντεοπαιχνίδια είναι η χρήση αλγορίθμου ενίσχυσης. Οι αλγόριθμοι ενίσχυσης μαθαίνουν πώς να εκτελέσουν μια εργασία εξερευνώντας μια σειρά από πιθανές ενέργειες και μετά από κάθε ενέργεια, τους παρέχεται ένα είδος ενίσχυσης (एक ανταμοιβή ή τιμωρία). Με τον καιρό, το μοντέλο AI μαθαίνει ποιες ενέργειες οδηγούν σε μεγαλύτερες ανταμοιβές και γίνεται πιο πιθανό να εκτελέσει αυτές τις ενέργειες. Δυστυχώς, τα μοντέλα ενίσχυσης συναντώνται σε δυσκολίες όταν συναντούν δεδομένα που δεν συμφωνούν με άλλα στο σύνολο δεδομένων.

Σύμφωνα με την ομάδα έρευνας, ο λόγος που η προσέγγισή τους δεν είχε εξεταστεί από άλλους ερευνητές AI είναι ότι η στρατηγική διαφέρει από την “εσωτερική мотивασία” που χρησιμοποιείται συνήθως στην ενίσχυση. Το πρόβλημα με την εσωτερική мотивασία είναι ότι το μοντέλο μπορεί να είναι ευάλωτο στο “λήθη” για πιθανώς ανταποδοτικές περιοχές που εξακολουθούν να αξίζουν εξερεύνηση. Αυτό το φαινόμενο ονομάζεται “αποσύνδεση”. Ως αποτέλεσμα, όταν το μοντέλο συναντά απροσδόκητα δεδομένα, μπορεί να λησμονήσει περιοχές που πρέπει ακόμη να εξερευνηθούν.

Σύμφωνα με το TechXplore, η ομάδα έρευνας έθεσε ως στόχο να δημιουργήσει ένα μοντέλο μάθησης που ήταν πιο ευέλικτο και能够 να ανταποκριθεί σε απροσδόκητα δεδομένα. Οι ερευνητές υπερέβησαν αυτό το πρόβλημα εισαγωγώντας έναν αλγόριθμο ικανό να θυμάται όλες τις ενέργειες που είχαν αναλάβει μια προηγούμενη έκδοση του μοντέλου όταν προσπάθησε να λύσει ένα πρόβλημα. Όταν το μοντέλο AI συναντά ένα δεδομένο που δεν είναι συνεπές με αυτά που έχει μάθει μέχρι τώρα, το μοντέλο ελέγχει τον χάρτη μνήμης του. Το μοντέλο θα αναγνωρίσει ποιες στρατηγικές πέτυχαν και απέτυχαν και θα επιλέξει στρατηγικές ανάλογα.

Όταν παίζει ένα βιντεοπαιχνίδι, το μοντέλο συλλέγει στιγμιότυπα του παιχνιδιού καθώς παίζει, δημιουργώντας ένα αρχείο των ενεργειών του. Οι εικόνες ομαδοποιούνται μαζί με βάση την ομοιότητα, σχηματίζοντας σαφείς σημεία στο χρόνο που το μοντέλο μπορεί να αναφερθεί. Ο αλγόριθμος μπορεί να χρησιμοποιήσει τα καταγεγραμμένα στιγμιότυπα για να επιστρέψει σε ένα ενδιαφέρον σημείο στο χρόνο και να συνεχίσει την εξερεύνηση από εκεί. Όταν το μοντέλο διαπιστώνει ότι χάνει, θα αναφερθεί στα στιγμιότυπα που τραβήχτηκαν και θα δοκιμάσει μια διαφορετική στρατηγική.

Όπως εξηγείται από το BBC, υπάρχει επίσης το πρόβλημα της αντιμετώπισης επικίνδυνων σεναρίων για το μοντέλο AI που παίζει το παιχνίδι. Αν το μοντέλο συναντήσει ένα κίνδυνο που μπορεί να το σκοτώσει, αυτό θα εμποδίσει την επιστροφή του σε περιοχές που αξίζουν περισσότερη εξερεύνηση, ένα πρόβλημα που ονομάζεται “αποσύνδεση”. Το μοντέλο AI αντιμετωπίζει προβλήματα αποσύνδεσης μέσω μιας ξεχωριστής διαδικασίας από αυτήν που χρησιμοποιείται για την ενθάρρυνση της εξερεύνησης παλιών περιοχών.

Η ομάδα έρευνας είχε το μοντέλο να παίξει 55 παιχνίδια Atari. Αυτά τα παιχνίδια χρησιμοποιούνται συνήθως για να μετρήσουν την απόδοση των μοντέλων AI, αλλά οι ερευνητές πρόσθεσαν μια στροφή στο μοντέλο τους. Οι ερευνητές εισήγαγαν πρόσθετους κανόνες στα παιχνίδια, οδηγώντας το μοντέλο να μην επιτύχει μόνο τον υψηλότερο δυνατό βαθμό αλλά και να προσπαθήσει να επιτύχει έναν ακόμη υψηλότερο βαθμό κάθε φορά. Όταν αναλύθηκαν τα αποτελέσματα της απόδοσης του μοντέλου, οι ερευνητές διαπίστωσαν ότι το σύστημα AI τους υπερέβη άλλα συστήματα AI στα παιχνίδια περίπου το 85% του χρόνου. Το μοντέλο εκτέλεσε ιδιαίτερα καλά στο παιχνίδι Montezuma’s Revenge, ένα παιχνίδι πλατφόρμας όπου ο παίκτης αποφεύγει κινδύνους και συλλέγει θησαυρούς. Το παιχνίδι έσπασε το ρεκόρ για έναν ανθρώπινο παίκτη και επίσης σκόραρε υψηλότερα από οποιοδήποτε άλλο σύστημα AI.

Σύμφωνα με τους ερευνητές AI της Uber, οι στρατηγικές που χρησιμοποιήθηκαν από την ομάδα έρευνας έχουν εφαρμογές σε βιομηχανίες όπως η ρομποτική. Τα ρομπότ επωφελούνται από την ικανότητα να θυμάται ποιες ενέργειες είναι επιτυχημένες, ποιες δεν δούλεψαν και ποιες δεν έχουν δοκιμαστεί ακόμη.

Daniel Nelson

Blogger και προγραμματιστής με ειδικότητες στα Machine Learning και Deep Learning θέματα. Ο Daniel ελπίζει να βοηθήσει τους άλλους να χρησιμοποιήσουν τη δύναμη του AI για κοινωνικό καλό.

Unite.AI

Ερευνητές του AI Δημιουργούν Μοντέλο Παιχνιδιού Βίντεο που Μπορεί να Θυμάται Παλιά Γεγονότα

You may like