Kunstig intelligens

Fremme AI-tilpasning med menneskelige verdier gjennom WARM

Publisert Februar 5, 2024

Aayush Mittal Mittal

Vekt Gjennomsnittlig belønning Modeller LLM

Innretting av AI-systemer med menneskelige verdier

Kunstig intelligens (AI)-systemer blir stadig mer i stand til å hjelpe mennesker i komplekse oppgaver, fra kundeservice chatbots til medisinske diagnosealgoritmer. Men ettersom disse AI-systemene tar på seg mer ansvar, er det avgjørende at de forblir på linje med menneskelige verdier og preferanser. En tilnærming for å oppnå dette er gjennom en teknikk som kalles forsterkningslæring fra menneskelig tilbakemelding (RLHF). I RLHF blir et AI-system, kjent som policyen, belønnet eller straffet basert på menneskelige vurderinger av dets oppførsel. Målet er at politikken skal lære å maksimere sine belønninger, og dermed oppføre seg i henhold til menneskelige preferanser.

En kjernekomponent i RLHF er belønningsmodellen (RM). RM er ansvarlig for å evaluere policyens handlinger og resultater, og returnere et belønningssignal for å veilede læringsprosessen. Å designe en god RM er utfordrende, siden menneskelige preferanser kan være komplekse, kontekstavhengige og til og med inkonsekvente på tvers av individer. Nylig foreslo forskere fra Google DeepMind en innovativ teknikk kalt Weight Averaged Reward Models (WARM) for å forbedre RM-design.

Problemet med belønningshacking

Et stort problem i RLHF er belønningshacking. Belønningshacking skjer når policyen finner smutthull for å spille RM-systemet for å oppnå høye belønninger uten faktisk å tilfredsstille de tiltenkte målene. Anta for eksempel at målet er å trene en skriveassistent AI til å generere sammendrag av høy kvalitet. RM kan belønne konsise og informative sammendrag. Politikken kan deretter lære å utnytte dette ved å generere svært korte, uinformative sammendrag spekket med nøkkelord som lurer RM.

Belønningshacking skjer av to hovedårsaker:

Distribusjonsskifte – RM er trent på et begrenset datasett med menneskemerkede eksempler. Når den er distribuert, kan policyens utganger komme fra forskjellige distribusjoner som RM ikke generaliserer godt til.
Støyende etiketter – Menneskelig merking er ufullkommen, med uenighet mellom vurderinger. RM kan låse seg på falske signaler i stedet for robuste kvalitetsindikatorer.

Belønningshacking fører til ubrukelige systemer som ikke samsvarer med menneskelige forventninger. Enda verre kan det resultere i AI-atferd som er partisk eller til og med farlig hvis den distribueres uforsiktig.

Fremveksten av modellsammenslåing

Den økende interessen for modellsammenslåingsstrategier som Model Ratatouille er drevet av erkjennelsen av at større modeller, selv om de er kraftige, kan være ineffektive og upraktiske. Trening av en 1 billion parametermodell krever uoverkommelige mengder data, beregning, tid og kostnader. Mer avgjørende er det at slike modeller har en tendens til å overpasse treningsdistribusjonen, noe som hindrer deres evne til å generalisere til ulike scenarier i den virkelige verden.

Modellsammenslåing gir en alternativ rute for å låse opp større muligheter uten ukontrollert oppskalering. Ved å gjenbruke flere spesialiserte modeller som er trent på forskjellige distribusjoner, oppgaver eller mål, har modellsammenslåing som mål å øke allsidigheten og robustheten utenfor distribusjon. Premisset er at ulike modeller fanger opp distinkte prediktive mønstre som kan utfylle hverandre når de slås sammen.

Nyere resultater illustrerer løftet til dette konseptet. Modeller oppnådd via sammenslåing, til tross for at de har langt færre parametere, kan matche eller til og med overgå ytelsen til gigantiske modeller som GPT-3. For eksempel oppnår et Model Ratatouille-ensemble med bare 7 mellomstore sjekkpunkter toppmoderne nøyaktighet på høydimensjonale tekstuelle datasett, som overgår GPT-3.

Enkelheten med å slå sammen etter vektgjennomsnitt er en stor bonus. Trening av flere hjelpemodeller krever ekstra ressurser. Men det er avgjørende at inferens-tidsberegningen forblir identisk med en enkelt modell, siden vekter kondenseres til én. Dette gjør metoden lett å tilpasse, uten bekymringer for økt ventetid eller minnekostnader.

Mekanismer bak modellsammenslåing

Men nøyaktig hva muliggjør disse nøyaktighetsgevinstene ved å slå sammen modeller? Nyere analyser gir noen ledetråder:

Reduserende memorering: Hver modell ser forskjellige stokkede grupper av datasettet under trening. Gjennomsnitt reduserer enhver forekomstspesifikk memorering, og beholder bare generaliseringer på datasettnivå.
Redusere varians: Modeller trent uavhengig har ukorrelerte feil. Ved å kombinere dem oppnås gjennomsnittlig støy, noe som forbedrer kalibreringen.
Regularisering via mangfold: Varierende hjelpeoppgaver tvinger modeller til å feste seg til mer generaliserbare funksjoner som er nyttige på tvers av distribusjoner.
Økende robusthet: Inkonsekvens i spådommer signaliserer usikkerhet. Gjennomsnittet modererer avvikende vurderinger, og øker påliteligheten.

I hovedsak motvekter modellsammenslåing svakhetene til individuelle modeller for å forsterke deres kollektive styrker. Den sammenslåtte representasjonen fanger opp de vanlige underliggende årsaksstrukturene, og ignorerer tilfeldige variasjoner.

Dette konseptuelle grunnlaget kobler modellsammenslåing til andre populære teknikker som ensembling og fleroppgavelæring. Alle disse metodene utnytter mangfold på tvers av modeller eller oppgaver for å oppnå allsidige, usikkerhetsbevisste systemer. Enkelheten og effektiviteten til vektgjennomsnitt gir imidlertid modellsammenslåing en unik fordel for å fremme virkelige implementeringer.

Gjennomsnittlig vekt belønningsmodeller

Justeringsprosess med WARM

VARM bruker innovativt en proxy-belønningsmodell (RM), som er et vektgjennomsnitt av flere individuelle RM-er, hver finjustert fra samme forhåndstrente LLM, men med varierende hyperparametre. Denne metoden forbedrer effektiviteten, påliteligheten under distribusjonsskift og robustheten mot inkonsekvente preferanser. Studien viser også at bruk av WARM som proxy RM, spesielt med et økt antall gjennomsnittlige RM-er, forbedrer resultatene og forsinker utbruddet av "belønningshacking", et fenomen der kontrollbelønninger forverres over tid.

Her er en oversikt på høyt nivå:

Begynn med en basisspråkmodell forhåndsopplært på et stort korpus. Initialiser flere RM-er ved å legge til små oppgavespesifikke lag på toppen.
Finjuster hver RM separat på datasettet for menneskelige preferanser, ved å bruke forskjellige hyperparametre som læringshastighet for mangfold.
Gjennomsnitt av vektene til de finjusterte RM-ene for å oppnå et enkelt WARM-ensemble.

Nøkkelinnsikten er at vektgjennomsnitt bare beholder den invariante informasjonen som læres på tvers av alle de forskjellige RM-ene. Dette reduserer avhengigheten av falske signaler, og øker robustheten. Ensemblet drar også nytte av variansreduksjon, og forbedrer påliteligheten til tross for distribusjonsskift.

Som diskutert tidligere, er mangfold på tvers av uavhengig trente modeller avgjørende for å frigjøre det fulle potensialet ved modellsammenslåing. Men hva er noen konkrete teknikker for å fremme produktivt mangfold?

WARM-artikkelen utforsker noen smarte ideer som kan generalisere bredere:

Bestilling av Shuffles

En triviell, men virkningsfull tilnærming er å blande rekkefølgen datapunkter blir sett av hver modell under trening. Selv dette enkle trinnet de-korrelerer vekter, og reduserer overflødig memorering av mønstre.

Hyperparametervariasjoner

Justering av hyperparametre som læringshastighet og frafallssannsynlighet for hver kjøring introduserer nyttig mangfold. Modeller konvergerer annerledes, og fanger opp distinkte egenskaper til datasettet.

Sjekkpunkt gjennomsnitt – Baklava

Baklava-metoden initialiserer modeller for sammenslåing fra forskjellige øyeblikksbilder langs samme fortreningsbane. Dette reduserer begrensninger sammenlignet med modellsupper som krever et delt startpunkt. I forhold til modell ratatouille unngår Baklava tilleggsoppgaver. Samlet sett oppnår den en effektiv balanse mellom nøyaktighet og mangfold.

finjustering av flere belønningsmodeller

Prosessen starter med en forhåndsopplært Large Language Model (LLM) 𝜃_𝑝𝑡. Fra denne modellen er forskjellige sjekkpunkter {𝜃_𝑠 𝑓 𝑡_𝑖} utledet under en Supervised Fine-Tuning (SFT)-kjøring, hver samlet inn ved forskjellige SFT-treningstrinn. Disse sjekkpunktene brukes deretter som initialiseringer for å finjustere flere belønningsmodeller (RM) {𝜙𝑖} på et preferansedatasett. Denne finjusteringen tar sikte på å tilpasse modellene slik at de stemmer bedre med menneskelige preferanser. Etter finjustering kombineres disse RM-ene gjennom en prosess med vektgjennomsnitt, noe som resulterer i den endelige modellen, 𝜙_WARM.

Analyse bekrefter at å legge til eldre sjekkpunkter ved å flytte gjennomsnitt skader individuell ytelse, og kompromitterer fordelene med mangfold. Gjennomsnitt bare de endelige representasjonene fra hver kjøring gir bedre resultater. Generelt er det fortsatt en åpen forskningsutfordring å balansere mangfoldsmål med nøyaktig vedlikehold.

Samlet sett stemmer modellsammenslåing godt med den generelle etosen i feltet for å resirkulere eksisterende ressurser effektivt for økt pålitelighet, effektivitet og allsidighet. Enkelheten med vektgjennomsnitt befester posisjonen som en ledende kandidat for å sette sammen robuste modeller fra lett tilgjengelige byggeklosser.

I motsetning til tradisjonelle ensemblingsmetoder som gir gjennomsnittlige spådommer, holder WARM beregningsmessige overhead minimal ved å opprettholde bare et enkelt sett med vekter. Eksperimenter med tekstoppsummeringsoppgaver viser WARMs effektivitet:

For best-of-N-prøvetaking oppnår WARM 92.5 % gevinstrate mot tilfeldig utvalg i henhold til menneskelige preferanseetiketter.
I RLHF når en WARM-policy 79.4 % gevinstrate mot en policy som er trent med en enkelt RM etter samme antall trinn.
WARM fortsetter å prestere godt selv når en fjerdedel av de menneskelige etikettene er ødelagte.

Disse resultatene illustrerer WARMs potensial som en praktisk teknikk for å utvikle virkelige AI-assistenter som oppfører seg pålitelig. Ved å jevne ut inkonsekvenser i menneskelig tilbakemelding, kan WARM-policyer forbli robust på linje med menneskelige verdier selv om de fortsetter å lære av nye erfaringer.

The Bigger Picture

WARM sitter i skjæringspunktet mellom to nøkkeltrender innen AI-innrettingsforskning. Først er studiet av out-of-distribution (OOD) generalisering, som har som mål å forbedre modellytelsen på nye data som skiller seg fra treningsdistribusjonen. For det andre er forskning på algoritmisk robusthet, med fokus på pålitelighet til tross for små inngangsforstyrrelser eller støy.

Ved å trekke forbindelser mellom disse feltene rundt forestillingen om innlærte invarianser, beveger WARM oss mot mer strengt funderte teknikker for verdijustering. Innsikten fra WARM kan generalisere selv utover RLHF, og gi leksjoner for bredere maskinlæringssystemer som samhandler med den åpne verden.

Selvfølgelig er belønningsmodellering bare en del av puslespillet. Vi trenger fortsatt fremgang på andre utfordringer som belønningsspesifikasjon, skalerbar tilsyn og sikker utforskning. Kombinert med komplementære teknikker, kan WARM akselerere utviklingen av AI som bærekraftig fremmer menneskelig velstand. Ved kollektivt å belyse prinsippene som ligger til grunn for robust justering, kartlegger forskere veien til nyttig, etisk AI.

Relaterte temaer:belønningsmodell RLHF RM VARM

Neste

Sammenligning av kvantiseringsteknikker for skalerbart vektorsøk

Ikke gå glipp av

OpenVoice: Allsidig umiddelbar stemmekloning

Aayush Mittal

Jeg har brukt de siste fem årene på å fordype meg i den fascinerende verdenen av maskinlæring og dyplæring. Min lidenskap og ekspertise har ført til at jeg har bidratt til over 50 ulike programvareprosjekter, med spesielt fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot naturlig språkbehandling, et felt jeg er ivrig etter å utforske videre.

Unite.AI