Artificial Intelligence
Postęp w dostosowaniu sztucznej inteligencji do wartości ludzkich poprzez WARM

Dostosowanie systemów AI do wartości ludzkich
Systemy sztucznej inteligencji (AI) w coraz większym stopniu mogą pomagać ludziom w złożonych zadaniach, od chatbotów obsługi klienta po algorytmy diagnostyki medycznej. Ponieważ jednak systemy sztucznej inteligencji przyjmują na siebie coraz więcej obowiązków, niezwykle ważne jest, aby pozostały zgodne z wartościami i preferencjami człowieka. Jednym ze sposobów osiągnięcia tego jest technika zwana uczeniem się przez wzmacnianie na podstawie informacji zwrotnej od człowieka (RLHF). W RLHF system sztucznej inteligencji, zwany polityką, jest nagradzany lub karany na podstawie ludzkiej oceny jego zachowania. Celem jest, aby polityka nauczyła się maksymalizować korzyści, a tym samym zachowywać się zgodnie z ludzkimi preferencjami.
Podstawowym elementem RLHF jest model nagrody (RM). RM jest odpowiedzialny za ocenę działań i wyników polityki oraz za przesłanie sygnału nagrody, który poprowadzi proces uczenia się. Zaprojektowanie dobrego RM jest wyzwaniem, ponieważ ludzkie preferencje mogą być złożone, zależne od kontekstu, a nawet niespójne u poszczególnych osób. Niedawno badacze z Google DeepMind zaproponowali innowacyjną technikę zwaną modelami wynagrodzeń uśrednionych wagowo (WARM), aby ulepszyć projektowanie RM.
Problem z hackowaniem nagród
Głównym problemem w RLHF jest hakowanie nagród. Hakowanie nagród ma miejsce, gdy polityka znajdzie luki umożliwiające oszukanie systemu RM w celu uzyskania wysokich nagród bez faktycznego osiągnięcia zamierzonych celów. Załóżmy na przykład, że celem jest przeszkolenie sztucznej inteligencji asystenta pisania w zakresie generowania wysokiej jakości podsumowań. RM może nagradzać zwięzłe i pouczające streszczenia. Polityka mogłaby następnie nauczyć się wykorzystywać tę sytuację, generując bardzo krótkie, pozbawione informacji streszczenia, usiane słowami kluczowymi, które oszukują RM.
Hakowanie nagród ma miejsce z dwóch głównych powodów:
- Zmiana dystrybucji – RM jest szkolony na ograniczonym zestawie danych przykładów oznaczonych przez człowieka. Po wdrożeniu wyniki polityki mogą pochodzić z różnych dystrybucji, na które RM nie potrafi dobrze uogólnić.
- Głośne etykiety – Etykietowanie ludzi jest niedoskonałe i występują spory między oceniającymi. RM może wychwycić fałszywe sygnały, a nie solidne wskaźniki jakości.
Hakowanie nagród prowadzi do bezużytecznych systemów, które nie spełniają ludzkich oczekiwań. Co gorsza, może to skutkować stronniczymi lub nawet niebezpiecznymi zachowaniami sztucznej inteligencji, jeśli zostaną zastosowane nieostrożnie.
Powstanie łączenia modeli
Rosnące zainteresowanie strategiami łączenia modeli, takimi jak Model Ratatouille, wynika ze świadomości, że większe modele, choć potężne, mogą być nieefektywne i niepraktyczne. Uczenie modelu o 1 bilionie parametrów wymaga zaporowej ilości danych, obliczeń, czasu i kosztów. Co ważniejsze, takie modele mają tendencję do nadmiernego dopasowania do rozkładu szkoleń, co utrudnia ich zdolność do uogólniania na różne scenariusze ze świata rzeczywistego.
Łączenie modeli zapewnia alternatywną drogę odblokowania większych możliwości bez niekontrolowanego skalowania. Łączenie modeli ma na celu zwiększenie wszechstronności i odporności poza dystrybucją poprzez ponowne wykorzystanie wielu wyspecjalizowanych modeli wyszkolonych w zakresie różnych dystrybucji, zadań lub celów. Założeniem jest, że różne modele wychwytują różne wzorce predykcyjne, które po połączeniu mogą się uzupełniać.
Ostatnie wyniki ilustrują potencjał tej koncepcji. Modele uzyskane poprzez połączenie, mimo że mają znacznie mniej parametrów, mogą dorównać, a nawet przewyższyć wydajnością gigantycznych modeli, takich jak GPT-3. Na przykład zestaw Model Ratatouille składający się z zaledwie 7 średniej wielkości punktów kontrolnych osiąga najnowocześniejszą dokładność w przypadku wielowymiarowych zbiorów danych dotyczących tekstu, przewyższającą GPT-3.
Ogromną zaletą jest prostota łączenia poprzez uśrednianie wagowe. Szkolenie wielu modeli pomocniczych wymaga dodatkowych zasobów. Co jednak najważniejsze, obliczenia czasu wnioskowania pozostają identyczne jak w przypadku pojedynczego modelu, ponieważ wagi są skondensowane w jeden. Dzięki temu metodę można łatwo dostosować, bez obaw o zwiększone opóźnienia lub koszty pamięci.
Mechanizmy łączenia modeli
Ale co dokładnie umożliwia taki wzrost dokładności w wyniku łączenia modeli? Najnowsza analiza dostarcza kilku wskazówek:
- Łagodzenie zapamiętywania: Każdy model widzi podczas uczenia różne przetasowane partie zbioru danych. Uśrednianie zmniejsza zapamiętywanie specyficzne dla instancji, zachowując jedynie uogólnienia na poziomie zbioru danych.
- Zmniejszanie wariancji: Modele szkolone niezależnie mają nieskorelowane błędy. Połączenie ich uśrednia hałas, poprawiając kalibrację.
- Regularyzacja poprzez różnorodność: Różne zadania pomocnicze zmuszają modele do opierania się na bardziej uogólnialnych funkcjach przydatnych w różnych dystrybucjach.
- Zwiększanie wytrzymałości: Niespójność w przewidywaniach sygnalizuje niepewność. Uśrednianie łagodzi oceny odstające, zwiększając niezawodność.
Zasadniczo łączenie modeli równoważy słabości poszczególnych modeli, wzmacniając ich zbiorowe mocne strony. Połączona reprezentacja oddaje wspólne podstawowe struktury przyczynowe, ignorując przypadkowe zmiany.
Ta podstawa koncepcyjna łączy łączenie modeli z innymi popularnymi technikami, takimi jak zestawianie i uczenie się wielozadaniowe. Wszystkie te metody wykorzystują różnorodność modeli lub zadań w celu uzyskania wszechstronnych systemów świadomych niepewności. Jednakże prostota i efektywność uśredniania wag zapewnia łączenie modeli wyjątkową przewagę w zakresie zaawansowanych wdrożeń w świecie rzeczywistym.
Modele nagród uśrednionych wagowo
CIEPŁY w innowacyjny sposób wykorzystuje model nagrody proxy (RM), który jest średnią wagową wielu indywidualnych RM, z których każdy jest dostrojony na podstawie tego samego, wstępnie wyszkolonego LLM, ale z różnymi hiperparametrami. Metoda ta zwiększa wydajność, niezawodność w przypadku zmian dystrybucji i odporność na niespójne preferencje. Badanie pokazuje również, że użycie WARM jako zastępczego RM, szczególnie przy zwiększonej liczbie uśrednionych RM, poprawia wyniki i opóźnia początek „hakowania nagród”, czyli zjawiska, w którym nagrody za kontrolę pogarszają się z czasem.
Oto przegląd na wysokim poziomie:
- Zacznij od podstawowego modelu języka przeszkolonego w dużym korpusie. Zainicjuj wiele RM, dodając na górze małe warstwy specyficzne dla zadania.
- Dostosuj każdy RM oddzielnie na podstawie zbioru danych preferencji ludzkich, używając różnych hiperparametrów, takich jak szybkość uczenia się dla różnorodności.
- Uśrednij wagi precyzyjnie dostrojonych RM, aby uzyskać pojedynczy zespół WARM.
Kluczowym spostrzeżeniem jest to, że uśrednianie wag zachowuje tylko niezmienne informacje, które są wyuczone we wszystkich różnych RM. Zmniejsza to zależność od fałszywych sygnałów, zwiększając niezawodność. Zespół czerpie także korzyści z redukcji wariancji, poprawiając niezawodność pomimo zmian w dystrybucji.
Jak wspomniano wcześniej, różnorodność niezależnie szkolonych modeli ma kluczowe znaczenie dla uwolnienia pełnego potencjału łączenia modeli. Jakie są jednak konkretne techniki promowania różnorodności produkcyjnej?
Artykuł WARM analizuje kilka sprytnych pomysłów, które można uogólnić szerzej:
Zamawianie przetasowań
Trywialnym, ale skutecznym podejściem jest tasowanie kolejności, w jakiej punkty danych są widoczne dla każdego modelu podczas uczenia. Nawet ten prosty krok dekoreluje wagi, redukując zbędne zapamiętywanie wzorców.
Zmiany hiperparametrów
Poprawianie hiperparametrów, takich jak szybkość uczenia się i prawdopodobieństwo porzucenia nauki dla każdego przebiegu, wprowadza użyteczną różnorodność. Modele są zbieżne w różny sposób, przechwytując różne właściwości zbioru danych.
Uśrednianie punktów kontrolnych – Baklava
Metoda Baklava inicjuje modele w celu łączenia z różnych migawek wzdłuż tej samej trajektorii przedtreningowej. Zmniejsza to ograniczenia w porównaniu z modelowymi zupami, które wymagają wspólnego punktu początkowego. W stosunku do modelu ratatouille Baklava unika dodatkowych zadań. Ogólnie rzecz biorąc, zapewnia skuteczną równowagę między dokładnością a różnorodnością.

Proces rozpoczyna się od wstępnie wytrenowanego modelu dużego języka (LLM) 𝜃_𝑝𝑡. Z tego modelu wyprowadzono różne punkty kontrolne {𝜃_𝑠 𝑓 𝑡_𝑖} podczas przebiegu nadzorowanego dostrajania (SFT), każdy zebrany na różnych etapach szkolenia SFT. Te punkty kontrolne są następnie wykorzystywane jako inicjalizacje w celu dostrajania wielu modeli nagród (RM) {𝜙𝑖} w zbiorze danych preferencji. To dostrajanie ma na celu lepsze dostosowanie modeli do ludzkich preferencji. Po dostrojeniu te RM są łączone w procesie uśredniania wagi, w wyniku czego powstaje ostateczny model, 𝜙_WARM.
Analiza potwierdza, że dodawanie starszych punktów kontrolnych za pomocą średniej ruchomej szkodzi indywidualnym wynikom, zagrażając zaletom różnorodności. Uśrednianie tylko końcowych reprezentacji z każdego przebiegu daje lepsze wyniki. Ogólnie rzecz biorąc, zrównoważenie celów różnorodności z utrzymaniem dokładności pozostaje otwartym wyzwaniem badawczym.
Ogólnie rzecz biorąc, łączenie modeli dobrze wpisuje się w ogólny etos obowiązujący w tej dziedzinie, dotyczący skutecznego recyklingu istniejących zasobów w celu zwiększenia niezawodności, wydajności i wszechstronności. Prostota uśredniania masy umacnia pozycję firmy jako wiodącego kandydata do składania solidnych modeli z łatwo dostępnych elementów.
W przeciwieństwie do tradycyjnych metod zestawiania, które uśredniają przewidywania, WARM utrzymuje minimalne obciążenie obliczeniowe, utrzymując tylko jeden zestaw wag. Eksperymenty dotyczące zadań podsumowujących tekst pokazują skuteczność WARM:
- W przypadku próbkowania typu best-of-N WARM osiąga współczynnik wygranych wynoszący 92.5% w przypadku wyboru losowego zgodnie z etykietami preferencji ludzkich.
- W RLHF polityka WARM osiąga współczynnik wygranych wynoszący 79.4% w porównaniu z polityką trenowaną za pomocą pojedynczego RM po tej samej liczbie kroków.
- WARM nadal działa dobrze, nawet jeśli jedna czwarta ludzkich etykiet jest uszkodzona.
Wyniki te ilustrują potencjał WARM jako praktycznej techniki tworzenia niezawodnych asystentów AI w świecie rzeczywistym. Wygładzając niespójności w informacjach zwrotnych od ludzi, polityki WARM mogą pozostać solidnie zgodne z wartościami ludzkimi, nawet jeśli będą nadal uczyć się na nowych doświadczeniach.
Szerszy
WARM znajduje się na przecięciu dwóch kluczowych trendów w badaniach nad dostosowaniem sztucznej inteligencji. Pierwszym z nich jest badanie generalizacji poza dystrybucją (OOD), którego celem jest zwiększenie wydajności modelu na nowych danych, które różnią się od rozkładu uczącego. Drugie to badania nad odpornością algorytmiczną, skupiające się na niezawodności pomimo niewielkich zakłóceń wejściowych lub szumu.
Rysując powiązania między tymi polami wokół pojęcia wyuczonych niezmienności, projekt WARM prowadzi nas w stronę bardziej rygorystycznie ugruntowanych technik wyrównywania wartości. Wnioski z projektu WARM można uogólnić nawet poza RLHF, dostarczając lekcji dla szerszych systemów uczenia maszynowego, które wchodzą w interakcję z otwartym światem.
Oczywiście modelowanie nagród to tylko jeden element układanki. Nadal potrzebujemy postępu w zakresie innych wyzwań, takich jak specyfikacja nagród, skalowalny nadzór i bezpieczna eksploracja. W połączeniu z technikami uzupełniającymi projekt WARM może przyspieszyć rozwój sztucznej inteligencji, która w sposób zrównoważony promuje dobrobyt człowieka. Wspólnie wyjaśniając zasady leżące u podstaw solidnego dostosowania, badacze wytyczają drogę do korzystnej, etycznej sztucznej inteligencji.