stub Fremme AI-tilpasning med menneskelige værdier gennem WARM - Unite.AI
Følg os

Kunstig intelligens

Fremme AI-tilpasning med menneskelige værdier gennem WARM

mm

Udgivet

 on

Vægt gennemsnitlig belønning modeller LLM

Tilpasning af AI-systemer til menneskelige værdier

Systemer med kunstig intelligens (AI) bliver i stigende grad i stand til at hjælpe mennesker med komplekse opgaver, fra kundeservice chatbots til medicinske diagnosealgoritmer. Men da disse AI-systemer påtager sig mere ansvar, er det afgørende, at de forbliver på linje med menneskelige værdier og præferencer. En tilgang til at opnå dette er gennem en teknik kaldet forstærkningslæring fra menneskelig feedback (RLHF). I RLHF bliver et AI-system, kendt som politikken, belønnet eller straffet baseret på menneskelige vurderinger af dets adfærd. Målet er, at politikken lærer at maksimere sine belønninger og dermed opføre sig efter menneskelige præferencer.

En kernekomponent i RLHF er belønningsmodellen (RM). RM er ansvarlig for at evaluere politikkens handlinger og output og returnere et belønningssignal for at guide læringsprocessen. At designe en god RM er udfordrende, da menneskelige præferencer kan være komplekse, kontekstafhængige og endda inkonsistente på tværs af individer. For nylig foreslog forskere fra Google DeepMind en innovativ teknik kaldet Weight Averaged Reward Models (WARM) for at forbedre RM-design.

Problemet med belønningshacking

Et stort problem i RLHF er belønningshacking. Belønningshacking opstår, når politikken finder smuthuller til at spille RM-systemet for at opnå høje belønninger uden faktisk at opfylde de tilsigtede mål. Antag for eksempel, at målet er at træne en skriveassistent AI til at generere resuméer af høj kvalitet. RM kan belønne kortfattede og informative resuméer. Politiken kunne så lære at udnytte dette ved at generere meget korte, uinformative resuméer krydret med nøgleord, der narrer RM.

Belønningshacking sker af to hovedårsager:

  1. Fordelingsskifte – RM er trænet på et begrænset datasæt af menneskemærkede eksempler. Når den implementeres, kan politikkens output komme fra forskellige distributioner, som RM ikke generaliserer godt til.
  2. Støjende etiketter – Menneskelig mærkning er ufuldkommen med uenighed mellem bedømmere. RM kan låse på falske signaler snarere end robuste kvalitetsindikatorer.

Belønningshacking fører til ubrugelige systemer, der ikke lever op til menneskelige forventninger. Endnu værre, det kan resultere i AI-adfærd, der er partisk eller endda farlig, hvis den implementeres skødesløst.

Fremkomsten af ​​modelsammenlægning

Den stigende interesse for modelfusionsstrategier som Model Ratatouille er drevet af erkendelsen af, at større modeller, selvom de er kraftfulde, kan være ineffektive og upraktiske. Træning af en 1 billion parametermodel kræver uoverkommelige mængder data, beregning, tid og omkostninger. Mere afgørende er det, at sådanne modeller har en tendens til at overfitte til træningsfordelingen, hvilket hæmmer deres evne til at generalisere til forskellige scenarier i den virkelige verden.

Modelsammenlægning giver en alternativ rute til at låse op for større muligheder uden ukontrolleret opskalering. Ved at genbruge flere specialiserede modeller, der er trænet i forskellige distributioner, opgaver eller mål, sigter modelfusion mod at øge alsidighed og robusthed uden for distribution. Forudsætningen er, at forskellige modeller fanger distinkte forudsigende mønstre, der kan komplementere hinanden, når de fusioneres.

De seneste resultater illustrerer løftet om dette koncept. Modeller opnået via sammenlægning, på trods af at de har langt færre parametre, kan matche eller endda overgå ydeevnen af ​​gigantiske modeller som GPT-3. For eksempel opnår et Model Ratatouille-ensemble med kun 7 mellemstore checkpoints den avancerede nøjagtighed på højdimensionelle tekstlige datasæt, der overgår GPT-3.

Enkelheden ved at fusionere efter vægtgennemsnit er en kæmpe bonus. Træning af flere hjælpemodeller kræver ekstra ressourcer. Men det er afgørende, at inferens-tidsberegningen forbliver identisk med en enkelt model, da vægte er kondenseret til én. Dette gør metoden let at tilpasse uden bekymringer om øget latenstid eller hukommelsesomkostninger.

Mekanismer bag modelsammenlægning

Men hvad er det præcist, der muliggør disse nøjagtighedsgevinster ved at fusionere modeller? Nylige analyser giver nogle fingerpeg:

  • Afhjælpende memorisering: Hver model ser forskellige blandede batches af datasættet under træning. Gennemsnitsberegning formindsker enhver instansspecifik memorisering og bevarer kun generaliseringer på datasætniveau.
  • Reducer varians: Modeller trænet uafhængigt har ukorrelerede fejl. Ved at kombinere dem udlignes støj i gennemsnit, hvilket forbedrer kalibreringen.
  • Regulering via mangfoldighed: Forskellige hjælpeopgaver tvinger modeller til at låse på mere generaliserbare funktioner, der er nyttige på tværs af distributioner.
  • Øget robusthed: Inkonsekvens i forudsigelser signalerer usikkerhed. Gennemsnit modererer afvigende vurderinger, hvilket øger pålideligheden.

I bund og grund opvejer modelsammenlægning svagheder ved individuelle modeller for at forstærke deres kollektive styrker. Den fusionerede repræsentation fanger de fælles underliggende kausale strukturer og ignorerer tilfældige variationer.

Dette konceptuelle grundlag forbinder modelfusion med andre populære teknikker som ensembling og multi-task læring. Alle disse metoder udnytter mangfoldighed på tværs af modeller eller opgaver for at opnå alsidige, usikkerhedsbevidste systemer. Enkelheden og effektiviteten af ​​vægtgennemsnit giver imidlertid modelsammensmeltning en unik fordel for at fremme implementeringer i den virkelige verden.

Vægtgennemsnitlige belønningsmodeller

Justeringsproces med WARM

Justeringsproces med WARM

VARM anvender innovativt en proxy-belønningsmodel (RM), som er et vægtgennemsnit af flere individuelle RM'er, hver finjusteret fra den samme præ-trænede LLM, men med varierende hyperparametre. Denne metode forbedrer effektivitet, pålidelighed under distributionsskift og robusthed over for inkonsistente præferencer. Undersøgelsen viser også, at brug af WARM som proxy RM, især med et øget antal gennemsnitlige RM'er, forbedrer resultaterne og forsinker begyndelsen af ​​'belønningshacking', et fænomen, hvor kontrolbelønninger forringes over tid.

Her er en oversigt på højt niveau:

  1. Start med en basissprogmodel, der er fortrænet på et stort korpus. Initialiser flere RM'er ved at tilføje små opgavespecifikke lag ovenpå.
  2. Finjuster hver RM separat på datasættet med menneskelige præferencer ved hjælp af forskellige hyperparametre som f.eks. indlæringshastighed for mangfoldighed.
  3. Lav et gennemsnit af vægten af ​​de finjusterede RM'er for at opnå et enkelt WARM-ensemble.

Nøgleindsigten er, at vægtgennemsnit kun bevarer den invariante information, der læres på tværs af alle de forskellige RM'er. Dette reducerer afhængigheden af ​​falske signaler, hvilket øger robustheden. Ensemblet drager også fordel af variansreduktion, hvilket forbedrer pålideligheden på trods af distributionsskift.

Som diskuteret tidligere, er mangfoldighed på tværs af uafhængigt trænede modeller afgørende for at frigøre det fulde potentiale ved modelfusion. Men hvad er nogle konkrete teknikker til at fremme produktiv mangfoldighed?

WARM-papiret udforsker et par smarte ideer, der kunne generalisere mere bredt:

Bestilling af Shuffles

En triviel, men virkningsfuld tilgang er at blande rækkefølgen, hvori datapunkter ses af hver model under træning. Selv dette enkle trin de-korrelerer vægte, hvilket reducerer overflødig memorering af mønstre.

Hyperparametervariationer

Justering af hyperparametre som indlæringshastighed og sandsynlighed for frafald for hver kørsel introducerer nyttig mangfoldighed. Modeller konvergerer forskelligt og indfanger datasættets distinkte egenskaber.

Checkpoint gennemsnit – Baklava

Baklava-metoden initialiserer modeller til fletning fra forskellige snapshots langs den samme fortræningsbane. Dette aflaster begrænsninger sammenlignet med modelsupper, der kræver et fælles udgangspunkt. I forhold til model ratatouille undgår Baklava yderligere opgaver. Samlet set opnår den en effektiv balance mellem nøjagtighed og mangfoldighed.

finjustering af flere belønningsmodeller

Processen begynder med en fortrænet Large Language Model (LLM) 𝜃_𝑝𝑡. Fra denne model udledes forskellige kontrolpunkter {𝜃_𝑠 𝑓 𝑡_𝑖} under et Supervised Fine-Tuning (SFT) løb, hver indsamlet ved forskellige SFT-træningstrin. Disse kontrolpunkter bruges derefter som initialiseringer til at finjustere flere belønningsmodeller (RM'er) {𝜙𝑖} på et præferencedatasæt. Denne finjustering har til formål at tilpasse modellerne til bedre at tilpasse sig menneskelige præferencer. Efter finjustering kombineres disse RM'er gennem en proces med vægtgennemsnit, hvilket resulterer i den endelige model, 𝜙_WARM.

Analyse bekræfter, at tilføjelse af ældre kontrolpunkter ved glidende gennemsnit skader den enkeltes præstation og kompromitterer mangfoldighedens fordele. Kun de endelige repræsentationer fra hver kørsel giver et gennemsnit bedre. Generelt er det fortsat en åben forskningsudfordring at balancere mangfoldighedsmål med nøjagtig vedligeholdelse.

Samlet set stemmer modelsammenlægning godt overens med den generelle etos på området for at genbruge eksisterende ressourcer effektivt for øget pålidelighed, effektivitet og alsidighed. Enkelheden ved vægtgennemsnit befæster dens position som en førende kandidat til at samle robuste modeller fra let tilgængelige byggeklodser.

I modsætning til traditionelle ensemblingsmetoder, der gennemsnit forudsigelser, holder WARM beregningsmæssig overhead minimal ved at opretholde kun et enkelt sæt vægte. Eksperimenter med tekstresuméopgaver viser WARMs effektivitet:

  • For best-of-N-prøveudtagning opnår WARM 92.5 % vinderrate mod tilfældig udvælgelse i henhold til menneskelige præferenceetiketter.
  • I RLHF når en WARM-politik op på 79.4 % vinderrate i forhold til en politik, der er trænet med en enkelt RM efter samme antal trin.
  • WARM fortsætter med at fungere godt, selv når en fjerdedel af de menneskelige etiketter er beskadiget.

Disse resultater illustrerer WARMs potentiale som en praktisk teknik til at udvikle AI-assistenter i den virkelige verden, der opfører sig pålideligt. Ved at udjævne uoverensstemmelser i menneskelig feedback kan WARM-politikker forblive robust afstemt med menneskelige værdier, selvom de fortsætter med at lære af nye erfaringer.

Jo større billede

WARM sidder i skæringspunktet mellem to nøgletendenser inden for AI-tilpasningsforskning. Først er undersøgelsen af ​​out-of-distribution (OOD) generalisering, som har til formål at forbedre modelpræstationer på nye data, der adskiller sig fra træningsfordelingen. For det andet er forskning i algoritmisk robusthed, med fokus på pålidelighed på trods af små inputforstyrrelser eller støj.

Ved at tegne forbindelser mellem disse felter omkring begrebet indlærte invarianser, bevæger WARM os mod mere strengt funderede teknikker til værditilpasning. Indsigten fra WARM kunne generalisere selv ud over RLHF og give lektioner til bredere maskinlæringssystemer, der interagerer med den åbne verden.

Selvfølgelig er belønningsmodellering kun en brik i justeringspuslespillet. Vi har stadig brug for fremskridt med andre udfordringer såsom belønningsspecifikation, skalerbart tilsyn og sikker udforskning. Kombineret med komplementære teknikker kan WARM fremskynde udviklingen af ​​kunstig intelligens, der bæredygtigt fremmer menneskelig velstand. Ved i fællesskab at belyse de principper, der ligger til grund for robust tilpasning, kortlægger forskere vejen til gavnlig, etisk AI.

Jeg har brugt de sidste fem år på at fordybe mig i den fascinerende verden af ​​Machine Learning og Deep Learning. Min passion og ekspertise har ført mig til at bidrage til over 50 forskellige software engineering projekter, med særligt fokus på AI/ML. Min vedvarende nysgerrighed har også trukket mig hen imod Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.