Connect with us

Sztuczna inteligencja

EUREKA: Projektowanie nagród na poziomie ludzkim za pomocą kodowania dużych modeli językowych

mm

Wraz z postępami, jakie dużych modeli językowych dokonano w ostatnich latach, nie jest zaskakujące, dlaczego te ramy LLM wyróżniają się jako planiści semantyczni dla sekwencyjnych zadań podejmowania decyzji na wysokim poziomie. Niemniej jednak, deweloperzy nadal mają trudności z wykorzystaniem pełnego potencjału ram LLM do nauki złożonych zadań manipulacji na niskim poziomie. Pomimo ich wydajności, dzisiejsze Duże Modele Językowe wymagają znacznej wiedzy branżowej i przedmiotowej, aby nauczyć się nawet prostych umiejętności lub skonstruować tekstowe wypowiedzi, tworząc znaczącą lukę między ich wydajnością a zręcznością na poziomie ludzkim.

Aby zamknąć tę lukę, deweloperzy z Nvidia, CalTech, UPenn i innych wprowadzili EUREKA, algorytm projektowania na poziomie ludzkim zasilany przez LLM. EUREKA ma na celu wykorzystanie różnych możliwości ram LLM, w tym kodowania, poprawy w kontekście i generacji zawartości zero-shot, w celu wykonania bezprecedensowej optymalizacji kodów nagród. Te kody nagród, w połączeniu z uczeniem wzmacnianym, umożliwiają ramom naukę złożonych umiejętności lub wykonywanie zadań manipulacji.

W tym artykule będziemy badać ramę EUREKA z perspektywy deweloperskiej, eksplorując jej ramy, mechanizmy i wyniki, które osiąga w generowaniu funkcji nagród. Te funkcje, jak twierdzą deweloperzy, przewyższają te generowane przez ludzi. Będziemy również zagłębiać się w to, jak ramy EUREKA otwierają drogę do nowego podejścia do RLHF (Uczenia wzmacnianego z ludzką informacją zwrotną) poprzez umożliwienie gradientowego uczenia się w kontekście. Zaczynajmy.

EUREKA: Wprowadzenie

Dziś, najnowsze ramy LLM jak GPT-3 i GPT-4 dostarczają wyśmienitych wyników, gdy służą jako planiści semantyczni dla sekwencyjnych zadań podejmowania decyzji na wysokim poziomie, ale deweloperzy nadal szukają sposobów, aby poprawić ich wydajność, gdy chodzi o naukę zadań manipulacji na niskim poziomie, takich jak zręczność obracania piórem. Ponadto, deweloperzy zauważyli, że uczenie wzmacniane może być użyte do osiągnięcia trwałych wyników w warunkach zręczności i innych dziedzinach, pod warunkiem, że funkcje nagród są starannie skonstruowane przez ludzkich projektantów, a te funkcje nagród są w stanie dostarczyć sygnały uczenia dla korzystnych zachowań. W porównaniu z zadania uczenia wzmacnianego w świecie rzeczywistym, które akceptują rzadkie nagrody, sprawia, że model ma trudności z nauką wzorców, kształtowanie tych nagród dostarcza niezbędnych sygnałów uczenia przyrostowego. Ponadto, funkcje nagród, pomimo ich ważności, są niezwykle trudne do zaprojektowania, a nieoptymalne projekty tych funkcji często prowadzą do niezamierzonych zachowań.

Aby rozwiązać te wyzwania i maksymalnie wykorzystać wydajność tych tokenów nagród, ramy EUREKA lub Ewolucyjnie napędzany Uniwersalny REward Kit dla Agenta mają na celu wniesienie następujących wkładów.

  1. Osiągnięcie wydajności na poziomie ludzkim przy projektowaniu funkcji nagród.
  2. Skuteczne rozwiązywanie zadań manipulacji bez użycia ręcznego inżynierii nagród.
  3. Generowanie bardziej ludzkich i lepszych funkcji nagród poprzez wprowadzenie nowego podejścia do uczenia się w kontekście, zamiast tradycyjnego RLHF lub Uczenia wzmacnianego z ludzką informacją zwrotną.

… (reszta treści)

"Inżynier z zawodu, pisarz z serca". Kunal jest technicznym pisarzem z głęboką miłością i zrozumieniem AI i ML, poświęconym uproszczeniu złożonych pojęć w tych dziedzinach poprzez swoje angażujące i informacyjne dokumentacje.