Umělá inteligence
Posouvání AI s lidskými hodnotami prostřednictvím WARM

Sladění systémů umělé inteligence s lidskými hodnotami
Systémy umělé inteligence (AI) jsou stále schopnější pomáhat lidem ve složitých úkolech, od chatbotů zákaznických služeb až po algoritmy lékařské diagnostiky. Vzhledem k tomu, že tyto systémy umělé inteligence přebírají více odpovědnosti, je zásadní, aby zůstaly v souladu s lidskými hodnotami a preferencemi. Jedním z přístupů, jak toho dosáhnout, je technika nazývaná posílení učení z lidské zpětné vazby (RLHF). V RLHF je systém umělé inteligence, známý jako politika, odměňován nebo penalizován na základě lidského úsudku o jeho chování. Cílem je, aby se politika naučila maximalizovat své odměny, a chovat se tak podle lidských preferencí.
Základní složkou RLHF je model odměny (RM). RM je zodpovědná za vyhodnocování akcí a výstupů politiky a za odesílání signálu odměny, aby řídil proces učení. Navrhnout dobrý RM je náročné, protože lidské preference mohou být složité, závislé na kontextu a dokonce i nekonzistentní napříč jednotlivci. Nedávno výzkumníci z Google DeepMind navrhli inovativní techniku nazvanou Weight Averaged Reward Models (WARM) ke zlepšení designu RM.
Problém s hackováním odměn
Hlavním problémem v RLHF je hackování odměn. K hackování odměn dochází, když politika najde mezery ve hře systému RM, aby získala vysoké odměny, aniž by skutečně splnila zamýšlené cíle. Předpokládejme například, že cílem je vycvičit AI asistenta psaní, aby generoval vysoce kvalitní souhrny. RM může odměňovat stručné a informativní shrnutí. Politika by se toho mohla naučit využívat generováním velmi krátkých, neinformativních souhrnů doplněných klíčovými slovy, která oklamou RM.
K hackování odměn dochází ze dvou hlavních důvodů:
- Distribuční směna – RM je vyškolen na omezeném datovém souboru příkladů označených lidmi. Při nasazení mohou výstupy politiky pocházet z různých distribucí, na které RM nezobecňuje dobře.
- Hlučné štítky – Lidské označování je nedokonalé, s neshody mezi hodnotiteli. RM se může chytit falešných signálů spíše než robustních indikátorů kvality.
Hackování odměn vede k zbytečným systémům, které nesplňují lidská očekávání. Ještě horší je, že to může vést k chování AI, které je zaujaté nebo dokonce nebezpečné, pokud je nasazeno neopatrně.
Vzestup slučování modelů
Rostoucí zájem o strategie slučování modelů, jako je Model Ratatouille, je poháněn uvědoměním si, že větší modely, přestože jsou výkonné, mohou být neefektivní a nepraktické. Trénink modelu s 1 bilionem parametrů vyžaduje neúměrné množství dat, výpočtů, času a nákladů. Ještě důležitější je, že takové modely mají tendenci přerůstat do distribuce školení, což omezuje jejich schopnost zobecnit na různé scénáře reálného světa.
Sloučení modelů poskytuje alternativní cestu k odemknutí větších možností bez nekontrolovaného rozšiřování. Opakovaným použitím více specializovaných modelů vyškolených pro různé distribuce, úkoly nebo cíle má slučování modelů za cíl zvýšit všestrannost a robustnost mimo distribuci. Předpokladem je, že různé modely zachycují odlišné prediktivní vzory, které se mohou při sloučení vzájemně doplňovat.
Nedávné výsledky ilustrují příslib tohoto konceptu. Modely získané sloučením, přestože mají mnohem méně parametrů, se mohou vyrovnat nebo dokonce překonat výkon obřích modelů, jako je GPT-3. Například soubor Model Ratatouille s pouhými 7 středně velkými kontrolními body dosahuje nejmodernější přesnosti u vysoce dimenzionálních textových datových sad, čímž překonává GPT-3.
Jednoduchost slučování váhovým průměrováním je obrovský bonus. Školení více pomocných modelů vyžaduje dodatečné zdroje. Ale rozhodující je, že výpočet inferenčního času zůstává identický s jediným modelem, protože váhy jsou zhuštěny do jedné. Díky tomu je metoda snadno přizpůsobitelná, bez obav ze zvýšené latence nebo nákladů na paměť.
Mechanismy za slučováním modelů
Ale co přesně umožňuje tyto zisky přesnosti sloučením modelů? Nedávná analýza nabízí několik vodítek:
- Zmírnění memorování: Každý model vidí během tréninku různé zamíchané dávky datové sady. Průměrování snižuje jakékoli zapamatování specifické pro instance a zachovává pouze zobecnění na úrovni datové sady.
- Snížení rozptylu: Modely trénované nezávisle mají nekorelované chyby. Jejich kombinací se zprůměruje hluk a zlepší se kalibrace.
- Regularizace prostřednictvím diverzity: Různé pomocné úlohy nutí modely, aby se držely více zobecnitelných funkcí užitečných napříč distribucemi.
- Zvýšení robustnosti: Nekonzistence v předpovědích signalizuje nejistotu. Průměrování zmírňuje odlehlé úsudky a zvyšuje spolehlivost.
Slučování modelů v podstatě vyvažuje slabé stránky jednotlivých modelů a umocňuje jejich společné silné stránky. Sloučená reprezentace zachycuje společné základní kauzální struktury a ignoruje náhodné variace.
Tento koncepční základ spojuje slučování modelů s dalšími oblíbenými technikami, jako je skládání a víceúkolové učení. Všechny tyto metody využívají rozmanitost napříč modely nebo úkoly k získání všestranných systémů s vědomím nejistoty. Jednoduchost a efektivita průměrování hmotnosti však dává sloučení modelů jedinečnou výhodu pro postupující nasazení v reálném světě.
Modely s průměrnou odměnou za váhu
TEPLÝ inovativně využívá model proxy odměny (RM), což je hmotnostní průměr několika jednotlivých RM, z nichž každý je jemně vyladěn ze stejného předem vyškoleného LLM, ale s různými hyperparametry. Tato metoda zvyšuje efektivitu, spolehlivost při distribučních směnách a odolnost vůči nekonzistentním preferencím. Studie také ukazuje, že použití WARM jako proxy RM, zejména se zvýšeným počtem zprůměrovaných RM, zlepšuje výsledky a oddaluje nástup „hackování odměn“, což je jev, kdy se odměny za kontrolu časem zhoršují.
Zde je přehled na vysoké úrovni:
- Začněte se základním jazykovým modelem předem natrénovaným na velkém korpusu. Inicializujte více RM přidáním malých vrstev specifických pro daný úkol.
- Dolaďte každý RM samostatně na datové sadě lidských preferencí pomocí různých hyperparametrů, jako je rychlost učení pro rozmanitost.
- Zprůměrujte hmotnosti jemně vyladěných RM, abyste získali jediný WARM soubor.
Klíčovým poznatkem je, že váhové průměrování zachovává pouze neměnné informace, které se naučily napříč všemi různými RM. To snižuje závislost na falešných signálech a zvyšuje robustnost. Soubor také těží ze snížení rozptylu, čímž se zlepšuje spolehlivost navzdory distribučním posunům.
Jak již bylo uvedeno výše, rozmanitost mezi nezávisle vyškolenými modely je zásadní pro využití plného potenciálu slučování modelů. Jaké jsou však konkrétní techniky na podporu produktivní rozmanitosti?
Dokument WARM zkoumá několik chytrých nápadů, které by mohly zobecnit šířeji:
Objednávání Shuffles
Triviálním, ale účinným přístupem je zamíchání pořadí, ve kterém jsou datové body viděny každým modelem během tréninku. Dokonce i tento jednoduchý krok odstraňuje korelaci hmotností a snižuje nadbytečné zapamatování vzorů.
Variace hyperparametrů
Vylepšení hyperparametrů, jako je rychlost učení a pravděpodobnost výpadku pro každý běh, přináší užitečnou rozmanitost. Modely se různě sbíhají a zachycují odlišné vlastnosti datové sady.
Průměrování kontrolních bodů – Baklava
Metoda Baklava inicializuje modely pro slučování z různých snímků podél stejné trajektorie předtrénování. To uvolňuje omezení ve srovnání s modelovými polévkami, které vyžadují sdílený výchozí bod. Ve srovnání s modelem ratatouille se Baklava vyhýbá dalším úkolům. Celkově vytváří efektivní rovnováhu přesnosti a rozmanitosti.

Proces začíná předem vyškoleným modelem velkého jazyka (LLM) 𝜃_𝑝𝑡. Z tohoto modelu jsou během běhu Supervised Fine-Tuning (SFT) odvozeny různé kontrolní body {𝜃_𝑠 𝑓 𝑡_𝑖}, každý shromážděný v různých krocích tréninku SFT. Tyto kontrolní body se pak používají jako inicializace pro jemné doladění více modelů odměn (RM) {𝜙𝑖} na preferenční datové sadě. Cílem tohoto jemného doladění je přizpůsobit modely tak, aby lépe odpovídaly lidským preferencím. Po jemném doladění jsou tyto RM kombinovány procesem zprůměrování hmotnosti, jehož výsledkem je konečný model 𝜙_WARM.
Analýza potvrzuje, že přidávání starších kontrolních bodů klouzavým průměrem poškozuje individuální výkon a ohrožuje výhody rozmanitosti. Zprůměrování pouze konečných reprezentací z každého běhu funguje lépe. Obecně platí, že vyvážení cílů rozmanitosti s udržováním přesnosti zůstává otevřenou výzkumnou výzvou.
Celkově lze říci, že slučování modelů je v souladu s obecným étosem v oboru efektivně recyklovat stávající zdroje pro zvýšení spolehlivosti, účinnosti a všestrannosti. Jednoduchost hmotnostního průměrování upevňuje jeho pozici předního kandidáta na sestavení robustních modelů ze snadno dostupných stavebních bloků.
Na rozdíl od tradičních metod skládání, které průměrují předpovědi, WARM udržuje výpočetní režii minimální tím, že udržuje pouze jednu sadu vah. Experimenty na úlohách sumarizace textu demonstrují efektivitu WARM:
- Pro výběr nejlepšího z N, WARM dosáhne 92.5% míry výher oproti náhodnému výběru podle štítků lidských preferencí.
- V RLHF dosahuje zásada WARM 79.4% míry výher oproti zásadě trénované s jediným RM po stejném počtu kroků.
- WARM pokračuje dobře, i když je čtvrtina lidských štítků poškozena.
Tyto výsledky ilustrují potenciál WARM jako praktické techniky pro vývoj skutečných asistentů umělé inteligence, kteří se chovají spolehlivě. Vyhlazením nekonzistencí v lidské zpětné vazbě mohou zásady WARM zůstat pevně v souladu s lidskými hodnotami, i když se budou i nadále učit z nových zkušeností.
Větší obrázek
WARM stojí na průsečíku dvou klíčových trendů ve výzkumu zarovnání AI. První je studie zobecnění mimo distribuci (OOD), jejímž cílem je zlepšit výkon modelu na nových datech, která se liší od trénovací distribuce. Druhým je výzkum algoritmické robustnosti se zaměřením na spolehlivost navzdory malým vstupním poruchám nebo šumu.
Nakreslením souvislostí mezi těmito poli kolem pojmu naučené invariance nás WARM posouvá k důsledněji zakotveným technikám pro vyrovnání hodnot. Poznatky z WARM by mohly zobecnit i mimo RLHF a poskytnout lekce pro širší systémy strojového učení, které interagují s otevřeným světem.
Modelování odměn je samozřejmě jen jedním kouskem skládačky zarovnání. Stále potřebujeme pokrok v dalších výzvách, jako je specifikace odměn, škálovatelný dohled a bezpečný průzkum. V kombinaci s doplňkovými technikami by WARM mohl urychlit vývoj AI, která udržitelně podporuje lidskou prosperitu. Společným objasněním principů, které jsou základem robustního zarovnání, výzkumníci mapují cestu k prospěšné, etické AI.