Refresh

This website www.unite.ai/el/eureka-human-level-reward-design-via-coding-large-language-models/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

στέλεχος EUREKA: Σχεδιασμός ανταμοιβής σε ανθρώπινο επίπεδο μέσω κωδικοποίησης μοντέλων μεγάλων γλωσσών - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

EUREKA: Σχεδιασμός ανταμοιβής σε ανθρώπινο επίπεδο μέσω κωδικοποίησης μοντέλων μεγάλων γλωσσών

mm
Ενημερώθηκε on

Με τις εξελίξεις που έχουν κάνει τα Large Language Models τα τελευταία χρόνια, δεν προκαλεί έκπληξη γιατί αυτά τα πλαίσια LLM διαπρέπουν ως σημασιολογικοί σχεδιαστές για διαδοχικές εργασίες λήψης αποφάσεων υψηλού επιπέδου. Ωστόσο, οι προγραμματιστές εξακολουθούν να θεωρούν ότι είναι δύσκολο να χρησιμοποιήσουν το πλήρες δυναμικό των πλαισίων LLM για την εκμάθηση πολύπλοκων εργασιών χειρισμού χαμηλού επιπέδου. Παρά την αποτελεσματικότητά τους, τα σημερινά μοντέλα μεγάλων γλωσσών απαιτούν σημαντική τεχνογνωσία στον τομέα και το θέμα για την εκμάθηση ακόμη και απλών δεξιοτήτων ή τη δημιουργία κειμενικών προτροπών, δημιουργώντας ένα σημαντικό χάσμα μεταξύ της απόδοσής τους και της επιδεξιότητάς τους σε ανθρώπινο επίπεδο.

Για να γεφυρώσουν αυτό το χάσμα, προγραμματιστές από τις Nvidia, CalTech, UPenn και άλλες έχουν εισαγάγει το EUREKA, έναν αλγόριθμο σχεδιασμού σε ανθρώπινο επίπεδο που λειτουργεί με LLM. Το EUREKA στοχεύει να αξιοποιήσει διάφορες δυνατότητες των πλαισίων LLM, συμπεριλαμβανομένης της συγγραφής κώδικα, της βελτίωσης εντός του περιβάλλοντος και της δημιουργίας περιεχομένου μηδενικής λήψης, για να πραγματοποιήσει άνευ προηγουμένου βελτιστοποίηση των κωδικών ανταμοιβής. Αυτοί οι κώδικες ανταμοιβής, σε συνδυασμό με την ενισχυτική μάθηση, επιτρέπουν στα πλαίσια να μαθαίνουν περίπλοκες δεξιότητες ή να εκτελούν εργασίες χειραγώγησης.

Σε αυτό το άρθρο, θα εξετάσουμε το πλαίσιο EUREKA από αναπτυξιακή προοπτική, διερευνώντας το πλαίσιο, τη λειτουργία του και τα αποτελέσματα που επιτυγχάνει στη δημιουργία συναρτήσεων ανταμοιβής. Αυτές οι λειτουργίες, όπως ισχυρίζονται οι προγραμματιστές, ξεπερνούν αυτές που δημιουργούνται από τον άνθρωπο. Θα εμβαθύνουμε επίσης στον τρόπο με τον οποίο το πλαίσιο EUREKA ανοίγει το δρόμο για μια νέα προσέγγιση στο RLHF (Ενίσχυση μάθησης με χρήση ανθρώπινης ανατροφοδότησης) επιτρέποντας τη μάθηση εντός πλαισίου χωρίς κλίση. Ας αρχίσουμε.

EUREKA : Εισαγωγή

Σήμερα, τελευταίας τεχνολογίας πλαίσια LLM όπως το GPT-3 και το GPT-4 προσφέρουν εξαιρετικά αποτελέσματα όταν χρησιμεύουν ως σημασιολογικοί σχεδιαστές για διαδοχικές εργασίες λήψης αποφάσεων υψηλού επιπέδου, αλλά οι προγραμματιστές εξακολουθούν να αναζητούν τρόπους για να βελτιώσουν την απόδοσή τους όταν πρόκειται για την εκμάθηση εργασιών χειρισμού χαμηλού επιπέδου, όπως το spinning επιδεξιότητα. Επιπλέον, οι προγραμματιστές παρατήρησαν ότι η ενισχυτική μάθηση μπορεί να χρησιμοποιηθεί για την επίτευξη βιώσιμων αποτελεσμάτων σε επιδέξιες συνθήκες και άλλους τομείς υπό τον όρο ότι οι λειτουργίες ανταμοιβής έχουν κατασκευαστεί προσεκτικά από ανθρώπους σχεδιαστές και αυτές οι λειτουργίες ανταμοιβής είναι ικανές να παρέχουν τα σήματα μάθησης για ευνοϊκές συμπεριφορές. Σε σύγκριση με τις εργασίες μάθησης ενίσχυσης του πραγματικού κόσμου που δέχονται αραιές ανταμοιβές δυσκολεύει το μοντέλο να μάθει τα μοτίβα, η διαμόρφωση αυτών των ανταμοιβών παρέχει τα απαραίτητα σταδιακά σήματα μάθησης. Επιπλέον, οι συναρτήσεις ανταμοιβής, παρά τη σημασία τους, είναι εξαιρετικά δύσκολο να σχεδιαστούν και οι υποβέλτιστοι σχεδιασμοί αυτών των λειτουργιών συχνά οδηγούν σε ακούσιες συμπεριφορές. 

Για να αντιμετωπίσετε αυτές τις προκλήσεις και να μεγιστοποιήσετε την αποτελεσματικότητα αυτών των διακριτικών ανταμοιβής, το EUREKA ή Eμε γνώμονα την εξέλιξη Universal REπτέρυγα Kαυτό για Agent στοχεύει να κάνει τις ακόλουθες συνεισφορές. 

  1. Επίτευξη απόδοσης σε ανθρώπινο επίπεδο για το σχεδιασμό Λειτουργιών Ανταμοιβής. 
  2. Επιλύστε αποτελεσματικά εργασίες χειρισμού χωρίς τη χρήση χειροκίνητης μηχανικής ανταμοιβής. 
  3. Δημιουργήστε περισσότερες συναρτήσεις ανταμοιβής ευθυγραμμισμένες με τον άνθρωπο και πιο αποτελεσματικές, εισάγοντας μια νέα προσέγγιση εκμάθησης εντός πλαισίου χωρίς κλίση αντί της παραδοσιακής μεθόδου RLHF ή Ενισχυτικής μάθησης από την ανθρώπινη ανάδραση. 

Υπάρχουν τρεις βασικές επιλογές αλγοριθμικού σχεδιασμού που επέλεξαν οι προγραμματιστές για να βελτιώσουν τη γενικότητα του EUREKA: εξελικτική αναζήτηση, περιβάλλον ως πλαίσιο και αντανάκλαση ανταμοιβής. Πρώτον, το πλαίσιο EUREKA παίρνει το τον πηγαίο κώδικα περιβάλλοντος ως πλαίσιο για τη δημιουργία εκτελέσιμων συναρτήσεων ανταμοιβής σε μια ρύθμιση μηδενικής λήψης. Μετά από αυτό, το πλαίσιο εκτελεί ένα εξελικτική αναζήτηση για να βελτιώσει ουσιαστικά την ποιότητα των ανταμοιβών του, προτείνει παρτίδες υποψηφίων ανταμοιβών σε κάθε επανάληψη ή εποχή και βελτιώνει αυτές που θεωρεί ότι είναι οι πιο υποσχόμενες. Στο τρίτο και τελευταίο στάδιο, το πλαίσιο χρησιμοποιεί το αντανάκλαση ανταμοιβής προσέγγιση για να καταστεί πιο αποτελεσματική η βελτίωση των ανταμοιβών εντός του πλαισίου, μια διαδικασία που τελικά βοηθά το πλαίσιο να επιτρέψει στοχευμένη και αυτοματοποιημένη επεξεργασία ανταμοιβών χρησιμοποιώντας μια σύνοψη κειμένου της ποιότητας αυτών των ανταμοιβών με βάση στατιστικές κατάρτισης πολιτικής. Το παρακάτω σχήμα σας δίνει μια σύντομη επισκόπηση του τρόπου λειτουργίας του πλαισίου EUREKA και στην επόμενη ενότητα, θα μιλήσουμε για την αρχιτεκτονική και θα εργαστούμε με περισσότερες λεπτομέρειες. 

EUREKA: Αρχιτεκτονική Μοντέλων και Ρύθμιση Προβλημάτων

Ο πρωταρχικός στόχος της διαμόρφωσης ανταμοιβής είναι να επιστρέψει μια διαμορφωμένη ή επιμελημένη συνάρτηση ανταμοιβής για μια συνάρτηση ανταμοιβής βασικής αλήθειας, η οποία μπορεί να δημιουργήσει δυσκολίες όταν βελτιστοποιηθεί άμεσα, όπως οι αραιές ανταμοιβές. Επιπλέον, οι σχεδιαστές μπορούν να χρησιμοποιούν ερωτήματα μόνο για να έχουν πρόσβαση σε αυτές τις συναρτήσεις ανταμοιβής βασικής αλήθειας, γεγονός που είναι ο λόγος για τον οποίο το πλαίσιο EUREKA επιλέγει γενιά ανταμοιβής, μια ρύθμιση σύνθεσης προγράμματος που βασίζεται στο RDP ή στο Πρόβλημα σχεδίασης ανταμοιβής. 

Το Πρόβλημα σχεδίασης ανταμοιβής ή RDP είναι μια πλειάδα που περιέχει ένα παγκόσμιο μοντέλο με χώρο κατάστασης, χώρο για συναρτήσεις ανταμοιβής, συνάρτηση μετάβασης και χώρο δράσης. Στη συνέχεια, ένας αλγόριθμος εκμάθησης βελτιστοποιεί τις ανταμοιβές δημιουργώντας μια πολιτική που καταλήγει σε μια διαδικασία σχεδίασης MDP ή Markov, η οποία παράγει τη βαθμιδωτή εξέλιξη οποιασδήποτε πολιτικής και μπορεί να προσπελαστεί μόνο χρησιμοποιώντας ερωτήματα πολιτικής. Ο πρωταρχικός στόχος του RDP είναι να παράγει μια συνάρτηση ανταμοιβής με τέτοιο τρόπο ώστε η πολιτική να είναι ικανή να επιτύχει τη μέγιστη βαθμολογία φυσικής κατάστασης. Στη ρύθμιση προβλημάτων του EUREKA, οι προγραμματιστές έχουν καθορίσει κάθε στοιχείο στο Πρόβλημα σχεδίασης ανταμοιβής χρησιμοποιώντας κώδικα. Επιπλέον, για μια δεδομένη συμβολοσειρά που καθορίζει τις λεπτομέρειες της εργασίας, ο πρωταρχικός στόχος του προβλήματος δημιουργίας ανταμοιβής είναι να δημιουργήσει έναν κωδικό συνάρτησης ανταμοιβής για να μεγιστοποιήσει το σκορ καταλληλότητας. 

Συνεχίζοντας, στον πυρήνα του, υπάρχουν τρία θεμελιώδη αλγοριθμικά στοιχεία στο πλαίσιο EUREKA. Εξελικτική αναζήτηση (πρόταση και επιβράβευση υποψηφίων βελτίωσης επαναληπτικά), περιβάλλον ως πλαίσιο (δημιουργία εκτελέσιμων ανταμοιβών σε ρύθμιση μηδενικής λήψης) και προβληματισμός ανταμοιβής (για να επιτραπεί η λεπτή βελτίωση των ανταμοιβών). Ο ψευδοκώδικας για τον αλγόριθμο απεικονίζεται στην παρακάτω εικόνα. 

Το περιβάλλον ως πλαίσιο

Επί του παρόντος, τα πλαίσια LLM χρειάζονται προδιαγραφές περιβάλλοντος ως εισροές για τη σχεδίαση ανταμοιβών, ενώ το πλαίσιο EUREKA προτείνει να τροφοδοτήσει τον ακατέργαστο κώδικα περιβάλλοντος απευθείας ως πλαίσιο, χωρίς ο κώδικας ανταμοιβής να επιτρέπει στα πλαίσια LLM να λαμβάνουν το παγκόσμιο μοντέλο ως πλαίσιο. Η προσέγγιση που ακολουθεί το EUREKA έχει δύο σημαντικά οφέλη. Πρώτον, τα πλαίσια LLM για σκοπούς κωδικοποίησης εκπαιδεύονται σε εγγενή σύνολα κώδικα που είναι γραμμένα σε υπάρχουσες γλώσσες προγραμματισμού όπως C, C++, Python, Java και άλλα, που είναι ο θεμελιώδης λόγος για τον οποίο είναι καλύτερα στην παραγωγή εξόδων κώδικα όταν τους επιτρέπονται άμεσα να συνθέσουν κώδικα με τη σύνταξη και το στυλ που είχαν αρχικά εκπαιδευτεί. Δεύτερον, η χρήση του πηγαίου κώδικα περιβάλλοντος συνήθως αποκαλύπτει τα περιβάλλοντα που εμπλέκονται σημασιολογικά και τις μεταβλητές που είναι κατάλληλες ή ιδανικές για χρήση σε μια προσπάθεια εξαγωγής μιας συνάρτησης ανταμοιβής σύμφωνα με την καθορισμένη εργασία. Με βάση αυτές τις πληροφορίες, το πλαίσιο EUREKA καθοδηγεί το LLM να επιστρέψει έναν πιο εκτελέσιμο κώδικα Python απευθείας με τη βοήθεια μόνο συμβουλών μορφοποίησης και γενικών σχεδίων ανταμοιβής. 

Εξελικτική Αναζήτηση

Η συμπερίληψη της εξελικτικής αναζήτησης στο πλαίσιο EUREKA στοχεύει να παρουσιάσει μια φυσική λύση στις προκλήσεις υπο-βελτιστοποίησης και στα σφάλματα που εμφανίστηκαν κατά την εκτέλεση, όπως αναφέρθηκε προηγουμένως. Με κάθε επανάληψη ή εποχή, το πλαίσιο διαφόρων ανεξάρτητων αποτελεσμάτων από το Μεγάλο Γλωσσικό Μοντέλο, και με την προϋπόθεση ότι οι γενιές είναι όλες iid, μειώνει εκθετικά την πιθανότητα οι συναρτήσεις ανταμοιβής κατά τη διάρκεια των επαναλήψεων να είναι buggy δεδομένου ότι ο αριθμός των δειγμάτων αυξάνεται με κάθε εποχή. 

Στο επόμενο βήμα, το πλαίσιο EUREKA χρησιμοποιεί τις εκτελέσιμες συναρτήσεις ανταμοιβών από προηγούμενη επανάληψη, πραγματοποιώντας μια μετάλλαξη ανταμοιβής εντός του πλαισίου και στη συνέχεια προτείνει μια νέα και βελτιωμένη συνάρτηση ανταμοιβής με βάση την ανατροφοδότηση κειμένου. Το πλαίσιο EUREKA όταν συνδυάζεται με τη βελτίωση εντός του πλαισίου και την παρακολούθηση των οδηγιών δυνατότητες μεγάλων γλωσσικών μοντέλων είναι σε θέση να καθορίσει τον τελεστή μετάλλαξης ως προτροπή κειμένου και προτείνει μια μέθοδο για τη χρήση της σύνοψης κειμένου της εκπαίδευσης πολιτικής για την τροποποίηση των υπαρχόντων κωδικών ανταμοιβής. 

Reward Reflection

Για να θεμελιωθούν οι μεταλλάξεις ανταμοιβής εντός του πλαισίου, είναι σημαντικό να αξιολογηθεί η ποιότητα των δημιουργούμενων ανταμοιβών, και το πιο σημαντικό, να ληφθούν λέξεις, και το πλαίσιο EUREKA το αντιμετωπίζει χρησιμοποιώντας την απλή στρατηγική παροχής των αριθμητικών βαθμολογιών ως αξιολόγηση ανταμοιβής. Όταν η συνάρτηση καταλληλότητας εργασιών χρησιμεύει ως ολιστική μέτρηση για τη βασική αλήθεια, στερείται ανάθεσης πιστώσεων και δεν είναι σε θέση να παρέχει πολύτιμες πληροφορίες σχετικά με το γιατί λειτουργεί η συνάρτηση ανταμοιβής ή γιατί δεν λειτουργεί. Έτσι, σε μια προσπάθεια να παράσχει μια πιο στοχευμένη και περίπλοκη διάγνωση ανταμοιβής, το πλαίσιο προτείνει τη χρήση αυτοματοποιημένων ανατροφοδοτήσεων για να συνοψιστεί η δυναμική κατάρτισης πολιτικής σε κείμενα. Επιπλέον, στο πρόγραμμα επιβράβευσης, οι συναρτήσεις ανταμοιβής στο πλαίσιο EUREKA καλούνται να εκθέσουν τα στοιχεία τους μεμονωμένα επιτρέποντας στο πλαίσιο να παρακολουθεί τις βαθμωτές τιμές κάθε μοναδικού στοιχείου ανταμοιβής σε σημεία ελέγχου πολιτικής κατά τη διάρκεια ολόκληρης της φάσης εκπαίδευσης.

Αν και η διαδικασία της συνάρτησης ανταμοιβής που ακολουθείται από το πλαίσιο EUREKA είναι απλή στην κατασκευή, είναι απαραίτητη χάρη στην αλγοριθμικά εξαρτώμενη φύση της βελτιστοποίησης των ανταμοιβών. Σημαίνει ότι η αποτελεσματικότητα μιας συνάρτησης ανταμοιβής επηρεάζεται άμεσα από την επιλογή ενός αλγόριθμου Ενίσχυσης Μάθησης και με μια αλλαγή στις υπερπαραμέτρους, η ανταμοιβή μπορεί να αποδώσει διαφορετικά ακόμη και με τον ίδιο βελτιστοποιητή. Έτσι, το πλαίσιο EUREKA είναι σε θέση να επεξεργάζεται τις εγγραφές πιο αποτελεσματικά και επιλεκτικά ενώ συνθέτει συναρτήσεις ανταμοιβής που βρίσκονται σε βελτιωμένη συνέργεια με τον αλγόριθμο Ενισχυτικής Μάθησης. 

Κατάρτιση και Βασική γραμμή

Υπάρχουν δύο βασικές συνιστώσες κατάρτισης του πλαισίου EUREKA: Εκμάθηση Πολιτικής και το Μετρήσεις αξιολόγησης ανταμοιβής.

Εκμάθηση Πολιτικής

Οι τελικές συναρτήσεις ανταμοιβής για κάθε μεμονωμένη εργασία βελτιστοποιούνται με τη βοήθεια του ίδιου αλγόριθμου εκμάθησης ενίσχυσης, χρησιμοποιώντας το ίδιο σύνολο υπερπαραμέτρων που είναι βελτιστοποιημένες ώστε να λειτουργούν καλά οι ανταμοιβές που έχουν δημιουργηθεί από τον άνθρωπο. 

Μετρήσεις αξιολόγησης ανταμοιβής

Καθώς η μέτρηση της εργασίας ποικίλλει ως προς την κλίμακα και το σημασιολογικό νόημα με κάθε εργασία, το πλαίσιο EUREKA αναφέρει την ανθρώπινη κανονικοποιημένη βαθμολογία, μια μέτρηση που παρέχει ένα ολιστικό μέτρο για το πλαίσιο για να συγκρίνει την απόδοση του σε σχέση με τις ανταμοιβές που δημιουργούνται από τους ειδικούς σύμφωνα με οι μετρήσεις βασικής αλήθειας. 

Συνεχίζοντας, υπάρχουν τρεις κύριες γραμμές βάσης: L2R, Άνθρωπος, και το Αραιός. 

L2R

Το L2R είναι α Λειτουργία μεγάλης γλώσσας δύο σταδίωνΛύση προτροπής που βοηθά στη δημιουργία τυποποιημένων ανταμοιβών. Πρώτα, ένα πλαίσιο LLM συμπληρώνει ένα πρότυπο φυσικής γλώσσας για το περιβάλλον και την εργασία που καθορίζεται σε φυσική γλώσσα και, στη συνέχεια, ένα δεύτερο πλαίσιο LLM μετατρέπει αυτήν την «περιγραφή κίνησης» σε έναν κώδικα που γράφει μια συνάρτηση ανταμοιβής καλώντας ένα σύνολο μη αυτόματα γραπτών αρχικών API ανταμοιβής . 

Ανθρώπινος

Η γραμμή βάσης για τον άνθρωπο είναι οι αρχικές συναρτήσεις ανταμοιβής που γράφτηκαν από ερευνητές ενισχυτικής μάθησης, αντιπροσωπεύοντας έτσι τα αποτελέσματα της μηχανικής ανθρώπινης ανταμοιβής σε ένα άνευ προηγουμένου επίπεδο. 

Αραιός

Η γραμμή βάσης Sparse μοιάζει με τις λειτουργίες φυσικής κατάστασης και χρησιμοποιούνται για την αξιολόγηση της ποιότητας των ανταμοιβών που δημιουργεί το πλαίσιο. 

Αποτελέσματα και Αποτελέσματα

Για να αναλύσουμε την απόδοση του πλαισίου EUREKA, θα το αξιολογήσουμε σε διάφορες παραμέτρους συμπεριλαμβανομένου του απόδοση έναντι των ανθρώπινων ανταμοιβών, βελτίωση των αποτελεσμάτων με την πάροδο του χρόνου, δημιουργία νέων ανταμοιβών, επιτρέποντας στοχευμένη βελτίωση, και το δουλεύοντας με την ανθρώπινη ανατροφοδότηση. 

Το EUREKA ξεπερνά τις ανθρώπινες ανταμοιβές

Το παρακάτω σχήμα απεικονίζει τα συγκεντρωτικά αποτελέσματα σε διαφορετικά σημεία αναφοράς και, όπως μπορεί να παρατηρηθεί ξεκάθαρα, το πλαίσιο EUREKA είτε έχει καλύτερη απόδοση είτε αποδίδει ισοδύναμα με τις ανταμοιβές σε ανθρώπινο επίπεδο τόσο στις εργασίες Dexterity όσο και σε εργασίες Issac. Συγκριτικά, η βασική γραμμή L2R προσφέρει παρόμοια απόδοση σε εργασίες χαμηλών διαστάσεων, αλλά όταν πρόκειται για εργασίες υψηλών διαστάσεων, το χάσμα στην απόδοση είναι αρκετά σημαντικό. 

Συνεχής βελτίωση με την πάροδο του χρόνου

Ένα από τα σημαντικότερα σημεία του πλαισίου EUREKA είναι η ικανότητά του να βελτιώνει και να βελτιώνει συνεχώς την απόδοσή του με την πάροδο του χρόνου με κάθε επανάληψη, και τα αποτελέσματα φαίνονται στο παρακάτω σχήμα. 

Όπως φαίνεται ξεκάθαρα, το πλαίσιο δημιουργεί συνεχώς καλύτερες ανταμοιβές με κάθε επανάληψη και βελτιώνει και τελικά ξεπερνά την απόδοση των ανθρώπινων ανταμοιβών, χάρη στη χρήση της προσέγγισης εξελικτικής αναζήτησης ανταμοιβών εντός του πλαισίου. 

Δημιουργία ανταμοιβών μυθιστορήματος

Η καινοτομία των ανταμοιβών του πλαισίου EUREKA μπορεί να αξιολογηθεί με τον υπολογισμό της συσχέτισης μεταξύ των ανταμοιβών του ανθρώπου και του EUREKA στο σύνολο των εργασιών του Issac. Αυτές οι συσχετίσεις στη συνέχεια σχεδιάζονται σε μια γραφική παράσταση διασποράς ή χάρτη έναντι των κανονικοποιημένων βαθμολογιών από τον άνθρωπο, με κάθε σημείο στην γραφική παράσταση να αντιπροσωπεύει μια μεμονωμένη ανταμοιβή EUREKA για κάθε μεμονωμένη εργασία. Όπως μπορεί να φανεί ξεκάθαρα, το πλαίσιο EUREKA δημιουργεί κατά κύριο λόγο αδύναμες συσχετισμένες συναρτήσεις ανταμοιβής που ξεπερνούν τις λειτουργίες ανθρώπινης ανταμοιβής. 

Ενεργοποίηση στοχευμένης βελτίωσης

Για να αξιολογήσουν τη σημασία της προσθήκης αντανάκλασης ανταμοιβής στην ανατροφοδότηση ανταμοιβής, οι προγραμματιστές αξιολόγησαν ένα ablation, ένα πλαίσιο EUREKA χωρίς αντανάκλαση ανταμοιβής που μειώνει τα μηνύματα ανάδρασης ώστε να αποτελούνται μόνο από τιμές στιγμιότυπου. Κατά την εκτέλεση εργασιών Issac, οι προγραμματιστές παρατήρησαν ότι χωρίς προβληματισμό ανταμοιβής, το πλαίσιο EUREKA παρουσίασε πτώση περίπου 29% στη μέση κανονικοποιημένη βαθμολογία. 

Εργασία με Ανθρώπινες Ανατροφοδοτήσεις

Για να ενσωματώσει εύκολα ένα ευρύ φάσμα εισροών για τη δημιουργία συναρτήσεων ανταμοιβής ευθυγραμμισμένες με τον άνθρωπο και πιο αποδοτικές, το πλαίσιο EUREKA εκτός από τους αυτοματοποιημένους σχεδιασμούς ανταμοιβών εισάγει επίσης μια νέα προσέγγιση μάθησης χωρίς κλίση στην Ενισχυτική Μάθηση από την Ανθρώπινη Ανάδραση. δύο σημαντικές παρατηρήσεις. 

  1. Το EUREKA μπορεί να επωφεληθεί και να βελτιωθεί από τις λειτουργίες ανθρώπινης ανταμοιβής. 
  2. Η χρήση ανθρώπινης ανατροφοδότησης για αντανακλάσεις ανταμοιβής προκαλεί ευθυγραμμισμένη συμπεριφορά. 

Το παραπάνω σχήμα δείχνει πώς το πλαίσιο EUREKA επιδεικνύει σημαντική ώθηση στην απόδοση και την αποτελεσματικότητα χρησιμοποιώντας την προετοιμασία ανθρώπινης ανταμοιβής ανεξάρτητα από την ποιότητα των ανθρώπινων ανταμοιβών, υποδηλώνοντας ότι η ποιότητα των βασικών ανταμοιβών δεν έχει σημαντικό αντίκτυπο στις ικανότητες βελτίωσης ανταμοιβής εντός του πλαισίου του πλαισίου. 

Το παραπάνω σχήμα δείχνει πώς το πλαίσιο EUREKA μπορεί όχι μόνο να προκαλέσει περισσότερες πολιτικές ευθυγραμμισμένες με τον άνθρωπο, αλλά και να τροποποιήσει τις ανταμοιβές ενσωματώνοντας την ανθρώπινη ανατροφοδότηση. 

Τελικές Σκέψεις

Σε αυτό το άρθρο, μιλήσαμε για το EUREKA, έναν αλγόριθμο σχεδίασης σε ανθρώπινο επίπεδο που βασίζεται σε LLM, ο οποίος επιχειρεί να αξιοποιήσει διάφορες δυνατότητες των πλαισίων LLM, συμπεριλαμβανομένης της εγγραφής κώδικα, των δυνατοτήτων βελτίωσης σε περιβάλλον και της δημιουργίας περιεχομένου μηδενικής λήψης για να πραγματοποιήσει βελτιστοποίηση χωρίς προηγούμενο των κωδικών ανταμοιβής. Ο κώδικας ανταμοιβής μαζί με την ενισχυτική μάθηση μπορούν στη συνέχεια να χρησιμοποιηθούν από αυτά τα πλαίσια για την εκμάθηση πολύπλοκων δεξιοτήτων ή την εκτέλεση εργασιών χειραγώγησης. Χωρίς ανθρώπινη παρέμβαση ή άμεση μηχανική για συγκεκριμένες εργασίες, το πλαίσιο παρέχει δυνατότητες δημιουργίας ανταμοιβών σε ανθρώπινο επίπεδο σε ένα ευρύ φάσμα εργασιών και η κύρια δύναμή του έγκειται στην εκμάθηση πολύπλοκων εργασιών με μια προσέγγιση μάθησης προγράμματος σπουδών. 

Συνολικά, η ουσιαστική απόδοση και η ευελιξία του πλαισίου EUREKA υποδηλώνει ότι η δυνατότητα συνδυασμού εξελικτικών αλγορίθμων με μεγάλα γλωσσικά μοντέλα μπορεί να οδηγήσει σε μια επεκτάσιμη και γενική προσέγγιση για τις ανταμοιβές σχεδίασης και αυτή η εικόνα μπορεί να εφαρμοστεί σε άλλα ανοιχτά προβλήματα αναζήτησης. 

«Μηχανικός στο επάγγελμα, συγγραφέας από καρδιάς». Ο Kunal είναι ένας τεχνικός συγγραφέας με βαθιά αγάπη και κατανόηση της τεχνητής νοημοσύνης και της ML, αφοσιωμένος στην απλοποίηση σύνθετων εννοιών σε αυτούς τους τομείς μέσω της συναρπαστικής και ενημερωτικής τεκμηρίωσής του.