Sztuczna inteligencja

EUREKA: Projektowanie nagród na poziomie ludzkim za pomocą kodowania dużych modeli językowych

mm

Wraz z postępami, jakie duże modele językowe (LLM) osiągnęły w ostatnich latach, nie jest zaskakujące, że te ramy LLM excellują jako planiści semantyczni dla sekwencyjnych zadań podejmowania decyzji na wysokim poziomie. Niemniej jednak, deweloperzy nadal mają trudności z wykorzystaniem pełnego potencjału ram LLM do nauki złożonych zadań na niskim poziomie. Pomimo ich wydajności, dzisiejsze duże modele językowe wymagają znacznej wiedzy branżowej i przedmiotowej, aby nauczyć się nawet prostych umiejętności lub skonstruować tekstowe podpowiedzi, tworząc znaczącą lukę między ich wydajnością a ludzką zręcznością.

Aby zabić tę lukę, deweloperzy z Nvidia, CalTech, UPenn i innych wprowadzili EUREKA, algorytm projektowania na poziomie ludzkim zasilany przez LLM. EUREKA ma na celu wykorzystanie różnych możliwości ram LLM, w tym kodowania, poprawy w kontekście i generacji zawartości zero-shot, aby osiągnąć bezprecedensową optymalizację kodów nagród. Te kody nagród, w połączeniu z uczeniem przez wzmocnienie, umożliwiają ramom naukę złożonych umiejętności lub wykonywanie zadań manipulacji.

W tym artykule, będziemy badać ramę EUREKA z perspektywy deweloperskiej, eksplorując jej strukturę, działanie i wyniki, które osiąga w generowaniu funkcji nagród. Te funkcje, jak twierdzą deweloperzy, przewyższają te generowane przez ludzi. Będziemy również zagłębiać się w to, jak ramy EUREKA otwierają nowe podejście do RLHF (Uczenia przez wzmocnienie z ludzkim sprzężeniem) przez umożliwienie gradient-free nauki w kontekście. Zaczynajmy.

EUREKA: Wprowadzenie

Dziś, najnowsze ramy LLM jak GPT-3 i GPT-4 dostarczają wyśmienite wyniki, gdy służą jako planiści semantyczni dla sekwencyjnych zadań podejmowania decyzji na wysokim poziomie, ale deweloperzy nadal szukają sposobów na poprawę ich wydajności, gdy chodzi o naukę zadań manipulacji na niskim poziomie, takich jak zręczność obracania piórem. Ponadto, deweloperzy zaobserwowali, że uczenie przez wzmocnienie może być użyte do osiągnięcia trwałych wyników w warunkach zręczności i innych dziedzinach, pod warunkiem, że funkcje nagród są starannie skonstruowane przez ludzkich projektantów i te funkcje nagród są w stanie dostarczyć sygnałów uczących dla korzystnych zachowań. Gdy porównujemy to do zadań uczenia przez wzmocnienie w świecie rzeczywistym, które akceptują rzadkie nagrody, sprawia to, że model ma trudności z nauką wzorców, a kształtowanie tych nagród dostarcza niezbędnych sygnałów uczących dla inkrementalnej nauki. Ponadto, funkcje nagród, pomimo ich ważności, są niezwykle trudne do zaprojektowania, a nieoptymalne projekty tych funkcji często prowadzą do niezamierzonych zachowań.

Aby rozwiązać te wyzwania i maksymalizować wydajność tych tokenów nagród, ramy EUREKA lub Ewolucyjne Uniwersalne REward Kit dla Agenta mają na celu wniesienie następujących wkładów.

  1. Osiągnięcie ludzkiego poziomu wydajności dla projektowania funkcji nagród.
  2. Skuteczne rozwiązywanie zadań manipulacji bez użycia ręcznego inżynierii nagród.
  3. Generowanie bardziej ludzkich i lepiej wykonujących funkcji nagród poprzez wprowadzenie nowego podejścia do nauki w kontekście, zamiast tradycyjnego RLHF lub Uczenia przez wzmocnienie z ludzkim sprzężeniem.

Istnieją trzy kluczowe wybory projektowe w ramach EUREKA: ewolucyjna wyszukiwarka, środowisko jako kontekst i odbicie nagrody. Po pierwsze, ramy EUREKA biorą źródłowy kod środowiska jako kontekst, aby wygenerować wykonywalne funkcje nagród w ustawieniu zero-shot. Następnie, ramy wykonują ewolucyjną wyszukiwarkę, aby znacznie poprawić jakość swoich nagród, proponując partie kandydatów na nagrody w każdej iteracji lub epoce i doskonaląc te, które okazują się najbardziej obiecujące. W trzecim i ostatnim etapie, ramy używają odbicia nagrody, aby uczynić poprawę nagród w kontekście bardziej skuteczną, co ostatecznie pomaga ramom włączyć ukierunkowaną i zautomatyzowaną edycję nagród, używając tekstowego podsumowania jakości tych nagród na podstawie statystyk szkolenia polityki. Poniższy rysunek daje krótkie spojrzenie na to, jak ramy EUREKA działają, a w następnym dziale, będziemy rozmawiać o architekturze i działaniu w większym szczególe.

EUREKA: Architektura modelu i ustawienie problemu

Głównym celem kształtowania nagród jest zwrócenie ukształtowanej lub wyselekcjonowanej funkcji nagrody dla funkcji nagrody podstawowej, co może stanowić trudność, gdy jest bezpośrednio optymalizowane, tak jak rzadkie nagrody. Ponadto, projektanci mogą uzyskać dostęp do tych funkcji nagród podstawowych tylko za pomocą zapytań, co jest powodem, dla którego ramy EUREKA optymują generowanie nagród, ustawienie syntezy programu opartego na RDP lub Problematice Projektowania Nagrody.

Problem Projektowania Nagrody lub RDP jest tuplem, który zawiera model świata z przestrzenią stanu, przestrzenią dla funkcji nagród, funkcją przejścia i przestrzenią działania. Następnie algorytm uczący optymalizuje nagrody, generując politykę, która wynika w procesie Markowa, który może być dostępny tylko za pomocą zapytań polityki. Głównym celem RDP jest wyjście z funkcją nagrody w taki sposób, aby polityka była w stanie osiągnąć maksymalny wynik fitness. W ustawieniu problemu EUREKA, deweloperzy określili każdy komponent w Problematice Projektowania Nagrody za pomocą kodu. Ponadto, dla danego ciągu, który określa szczegóły zadania, głównym celem problemu generowania nagrody jest wygenerowanie kodu funkcji nagrody, aby maksymalizować wynik fitness.

Idąc dalej, w rdzeniu EUREKA istnieją trzy podstawowe komponenty algorytmiczne. Ewolucyjna wyszukiwarka (proponująca i doskonaląca kandydatów iteracyjnie), środowisko jako kontekst (generujące wykonywalne nagrody w ustawieniu zero-shot) i odbicie nagrody (w celu umożliwienia drobnej poprawy nagród). Poniższy rysunek ilustruje pseudokod algorytmu.

Środowisko jako kontekst

Obecnie, ramy LLM wymagają specyfikacji środowiska jako wejścia do projektowania nagród, podczas gdy ramy EUREKA proponują podanie surowego kodu środowiska bezpośrednio jako kontekst, bez kodu nagrody, pozwalając ramom LLM na przyjęcie modelu świata jako kontekstu. Podejście stosowane przez EUREKA ma dwie główne korzyści. Po pierwsze, ramy LLM do kodowania są szkolone na natywnych zestawach kodu napisanych w istniejących językach programowania, takich jak C, C++, Python, Java i więcej, co jest podstawowym powodem, dla którego są lepsze w produkcji wyjściowego kodu, gdy są bezpośrednio dopuszczone do komponowania kodu w składni i stylu, na którym zostały pierwotnie wyszkolone. Po drugie, używanie kodu źródłowego środowiska zwykle ujawnia środowiska zaangażowane semantycznie i zmienne, które są odpowiednie do użycia w celu wyjścia z funkcją nagrody zgodnie z określonym zadaniem. Na podstawie tych spostrzeżeń, ramy EUREKA nakazują LLM, aby zwrócić bardziej wykonywalny kod Pythona bezpośrednio za pomocą tylko wskazówek formatowania i ogólnych projektów nagród.

Ewolucyjna wyszukiwarka

Włączenie ewolucyjnej wyszukiwarki w ramach EUREKA ma na celu przedstawienie naturalnego rozwiązania wyzwań suboptymalności i błędów, które występują podczas wykonywania. Z każdą iteracją lub epoką, ramy generują niezależne wyjścia z dużego modelu językowego, a jeśli generacje są wszystkie niezależne, to wykładniczo zmniejszają prawdopodobieństwo, że funkcje nagród podczas iteracji są błędne, biorąc pod uwagę, że liczba próbek zwiększa się z każdą epoką.

W następnym kroku, ramy EUREKA używają wykonywalnych funkcji nagród z poprzedniej iteracji, aby wykonać mutację nagrody w kontekście, a następnie proponują nową i ulepszoną funkcję nagrody na podstawie tekstowego sprzężenia. Ramy EUREKA, w połączeniu z poprawą w kontekście i zdolnościami do śledzenia instrukcji dużych modeli językowych, są w stanie określić operator mutacji jako tekstową podpowiedź i sugerują sposób użycia tekstowego podsumowania szkolenia polityki do modyfikacji istniejących kodów nagród.

Odbicie nagrody

Aby ugruntować mutacje nagrody w kontekście, jest konieczne ocenienie jakości wygenerowanych nagród i, co więcej, umieszczenie ich w słowach, a ramy EUREKA rozwiązują to, używając prostej strategii dostarczania wyników liczbowych jako oceny nagrody. Gdy funkcja fitness zadania służy jako holistyczny wskaźnik dla podstawowej prawdy, brakuje mu przyznania kredytu i nie jest w stanie dostarczyć żadnych wartościowych informacji na temat, dlaczego funkcja nagrody działa, lub dlaczego nie działa. Więc, w celu zapewnienia bardziej ukierunkowanego i drobnego rozpoznania nagrody, ramy proponują użycie zautomatyzowanego sprzężenia, aby podsumować dynamikę szkolenia polityki w tekście. Ponadto, w programie nagrody, funkcje nagrody w ramach EUREKA są poproszone o ekspozycję ich składników indywidualnie, pozwalając ramom na śledzenie wartości skalarnej każdego unikalnego składnika nagrody w punktach kontrolnych polityki podczas całego procesu szkolenia.

Chociaż procedura funkcji nagrody stosowana przez ramy EUREKA jest prosta do skonstruowania, jest to konieczne ze względu na algorytmicznie zależny charakter optymalizacji nagród. Oznacza to, że skuteczność funkcji nagrody jest bezpośrednio wpływana przez wybór algorytmu uczenia przez wzmocnienie, a przy zmianie hiperparametrów, nagroda może działać inaczej, nawet z tym samym optymalizatorem. Więc, ramy EUREKA są w stanie edytować rekordy bardziej efektywnie i selektywnie, syntetyzując funkcje nagród, które są w zwiększonej synergii z algorytmem uczenia przez wzmocnienie.

Szkolenie i linia bazowa

Istnieją dwa główne komponenty szkolenia ram EUREKA: Uczenie polityki i Wskaźniki oceny nagrody.

Uczenie polityki

Końcowe funkcje nagrody dla każdego zadania są optymalizowane za pomocą tego samego algorytmu uczenia przez wzmocnienie, używając tego samego zestawu hiperparametrów, które są dostrojone, aby uczynić nagrody zaprojektowane przez ludzi dobrze działającymi.

Wskaźniki oceny nagrody

Ponieważ wskaźnik zadania różni się pod względem skali i znaczenia semantycznego wraz z każdym zadaniem, ramy EUREKA zgłaszają wynik znormalizowany przez człowieka, który dostarcza holistyczną miarę, aby porównać, jak dobrze wykonują się w porównaniu z nagrodami wygenerowanymi przez ekspertów ludzkich, zgodnie z metrykami podstawowej prawdy.

Idąc dalej, istnieją trzy główne linie bazowe: L2R, Ludzka, i Rzadka.

L2R

L2R jest dwuetapowym rozwiązaniem Large Language Model, które pomaga w generowaniu szablonowych nagród. Po pierwsze, ramy LLM wypełniają szablon języka naturalnego dla środowiska i zadania określonego w języku naturalnym, a następnie drugie ramy LLM konwertują ten „opis ruchu” w kod, który pisze funkcję nagrody, wywołując zestaw ręcznie napisanych prymitywów interfejsu API nagrody.

Ludzka

Ludzka linia bazowa składa się z oryginalnych funkcji nagrody napisanych przez badaczy uczenia przez wzmocnienie, reprezentując wyniki inżynierii nagrody na poziomie ludzkim.

Rzadka

Lina bazowa Rzadka przypomina funkcje fitness i są one używane do oceny jakości nagród generowanych przez ramy.

Wyniki i rezultaty

Aby przeanalizować wydajność ram EUREKA, będziemy je oceniać na różnych parametrach, w tym ich wydajność w porównaniu z nagrodami ludzkimi, poprawę wyników w czasie, generowanie nowych nagród, umożliwienie ukierunkowanej poprawy, i współpracę z ludzkim sprzężeniem.

EUREKA przewyższa nagrody ludzkie

Poniższy rysunek ilustruje wyniki agregatowe na różnych benchmarkach, a jak można zobaczyć, ramy EUREKA przewyższają lub wykonują na poziomie ludzkim nagrody na zadaniach Dexterity i Issac. W porównaniu, linia bazowa L2R dostarcza podobną wydajność na zadaniach niskowymiarowych, ale gdy chodzi o zadania wysokowymiarowe, różnica w wydajności jest dość znacząca.

Stałe poprawianie się w czasie

Jednym z głównych punktów ram EUREKA jest ich zdolność do ciągłego poprawiania się i zwiększania wydajności w czasie, z każdą iteracją, a wyniki są pokazane na poniższym rysunku.

Jak można zobaczyć, ramy ciągle generują lepsze nagrody z każdą iteracją i również poprawiają i ostatecznie przewyższają wydajność nagród ludzkich, dzięki użyciu podejścia ewolucyjnej wyszukiwarki nagrody w kontekście.

Generowanie nowych nagród

Nowość nagród ram EUREKA może być oceniona przez obliczenie korelacji między nagrodami ludzkimi a nagrodami EUREKA na wszystkich zadaniach Issac. Korelacje te są następnie wyświetlane na wykresie rozproszenia lub mapie przeciwko znormalizowanym wynikom ludzkim, z każdym punktem na wykresie reprezentującym indywidualną nagrodę EUREKA dla każdego zadania. Jak można zobaczyć, ramy EUREKA głównie generują słabo skorelowane funkcje nagrody, które przewyższają funkcje nagrody ludzkie.

Umożliwianie ukierunkowanej poprawy

Aby ocenić znaczenie dodania odbicia nagrody w sprzężeniu nagrody, deweloperzy ocenili ablację, ramy EUREKA bez odbicia nagrody, które redukują podpowiedzi sprzężenia do zapisania tylko wartości migawkowych. Gdy uruchamiano zadania Issac, deweloperzy zaobserwowali, że bez odbicia nagrody, ramy EUREKA doświadczyły spadku o około 29% w średnim znormalizowanym wyniku.

Współpraca z ludzkim sprzężeniem

Aby łatwo włączyć szeroki zakres danych wejściowych do generowania nagród ludzkich i lepiej wykonujących, ramy EUREKA, oprócz zautomatyzowanego projektowania nagród, wprowadzają nowe podejście do nauki w kontekście, zamiast tradycyjnego RLHF lub Uczenia przez wzmocnienie z ludzkim sprzężeniem, a było dwie znaczące obserwacje.

  1. EUREKA może korzystać i poprawiać się z nagród ludzkich.
  2. Użycie ludzkiego sprzężenia dla odbicia nagrody indukuje zachowania zgodne.

Powyższy rysunek pokazuje, jak ramy EUREKA demonstrują znaczący wzrost wydajności i efektywności, używając inicjalizacji nagrody ludzkiej, niezależnie od jakości nagrody ludzkiej, co sugeruje, że jakość nagrody podstawowej nie ma znaczącego wpływu na możliwości poprawy nagrody w kontekście.

Powyższy rysunek ilustruje, jak ramy EUREKA mogą nie tylko indukować bardziej ludzkie polityki, ale również modyfikować nagrody, włączając ludzkie sprzężenie.

Końcowe myśli

W tym artykule, omówiliśmy EUREKA, algorytm projektowania na poziomie ludzkim zasilany przez LLM, który próbuje wykorzystać różne możliwości ram LLM, w tym kodowanie, poprawę w kontekście i generowanie zawartości zero-shot, aby osiągnąć bezprecedensową optymalizację kodów nagród. Kod nagrody, w połączeniu z uczeniem przez wzmocnienie, może być następnie użyty przez ramy do nauki złożonych umiejętności lub wykonywania zadań manipulacji. Bez interwencji ludzkiej lub inżynierii podpowiedzi zadań, ramy dostarczają możliwości generowania nagród na poziomie ludzkim na szerokim zakresie zadań, a ich główna siła leży w nauce złożonych zadań z podejściem uczenia się w kuratorium.

Ogólnie, znacząca wydajność i wszechstronność ram EUREKA wskazuje, że łączenie algorytmów ewolucyjnych z dużymi modelami językowymi może wynikować w skalowalnym i ogólnym podejściu do projektowania nagród, a ta wiedza może być stosowana do innych otwartych problemów wyszukiwania.

"Inżynier z zawodu, pisarz z serca". Kunal jest technicznym pisarzem z głęboką miłością i zrozumieniem AI i ML, poświęconym uproszczeniu złożonych pojęć w tych dziedzinach poprzez swoje angażujące i informacyjne dokumentacje.