Sztuczna inteligencja
EUREKA: Projektowanie nagród na poziomie ludzkim za pomocą kodowania dużych modeli językowych

Wraz z postępami, jakie dużych modeli językowych dokonano w ostatnich latach, nie jest zaskakujące, dlaczego te ramy LLM wyróżniają się jako planiści semantyczni dla sekwencyjnych zadań podejmowania decyzji na wysokim poziomie. Niemniej jednak, deweloperzy nadal mają trudności z wykorzystaniem pełnego potencjału ram LLM do nauki złożonych zadań manipulacji na niskim poziomie. Pomimo ich wydajności, dzisiejsze Duże Modele Językowe wymagają znacznej wiedzy branżowej i przedmiotowej, aby nauczyć się nawet prostych umiejętności lub skonstruować tekstowe wypowiedzi, tworząc znaczącą lukę między ich wydajnością a zręcznością na poziomie ludzkim.
Aby zamknąć tę lukę, deweloperzy z Nvidia, CalTech, UPenn i innych wprowadzili EUREKA, algorytm projektowania na poziomie ludzkim zasilany przez LLM. EUREKA ma na celu wykorzystanie różnych możliwości ram LLM, w tym kodowania, poprawy w kontekście i generacji zawartości zero-shot, w celu wykonania bezprecedensowej optymalizacji kodów nagród. Te kody nagród, w połączeniu z uczeniem wzmacnianym, umożliwiają ramom naukę złożonych umiejętności lub wykonywanie zadań manipulacji.
W tym artykule będziemy badać ramę EUREKA z perspektywy deweloperskiej, eksplorując jej ramy, mechanizmy i wyniki, które osiąga w generowaniu funkcji nagród. Te funkcje, jak twierdzą deweloperzy, przewyższają te generowane przez ludzi. Będziemy również zagłębiać się w to, jak ramy EUREKA otwierają drogę do nowego podejścia do RLHF (Uczenia wzmacnianego z ludzką informacją zwrotną) poprzez umożliwienie gradientowego uczenia się w kontekście. Zaczynajmy.
EUREKA: Wprowadzenie
Dziś, najnowsze ramy LLM jak GPT-3 i GPT-4 dostarczają wyśmienitych wyników, gdy służą jako planiści semantyczni dla sekwencyjnych zadań podejmowania decyzji na wysokim poziomie, ale deweloperzy nadal szukają sposobów, aby poprawić ich wydajność, gdy chodzi o naukę zadań manipulacji na niskim poziomie, takich jak zręczność obracania piórem. Ponadto, deweloperzy zauważyli, że uczenie wzmacniane może być użyte do osiągnięcia trwałych wyników w warunkach zręczności i innych dziedzinach, pod warunkiem, że funkcje nagród są starannie skonstruowane przez ludzkich projektantów, a te funkcje nagród są w stanie dostarczyć sygnały uczenia dla korzystnych zachowań. W porównaniu z zadania uczenia wzmacnianego w świecie rzeczywistym, które akceptują rzadkie nagrody, sprawia, że model ma trudności z nauką wzorców, kształtowanie tych nagród dostarcza niezbędnych sygnałów uczenia przyrostowego. Ponadto, funkcje nagród, pomimo ich ważności, są niezwykle trudne do zaprojektowania, a nieoptymalne projekty tych funkcji często prowadzą do niezamierzonych zachowań.

Aby rozwiązać te wyzwania i maksymalnie wykorzystać wydajność tych tokenów nagród, ramy EUREKA lub Ewolucyjnie napędzany Uniwersalny REward Kit dla Agenta mają na celu wniesienie następujących wkładów.
- Osiągnięcie wydajności na poziomie ludzkim przy projektowaniu funkcji nagród.
- Skuteczne rozwiązywanie zadań manipulacji bez użycia ręcznego inżynierii nagród.
- Generowanie bardziej ludzkich i lepszych funkcji nagród poprzez wprowadzenie nowego podejścia do uczenia się w kontekście, zamiast tradycyjnego RLHF lub Uczenia wzmacnianego z ludzką informacją zwrotną.
… (reszta treści)










