Anslut dig till vårt nätverk!

Artificiell intelligens

Avancera AI-anpassning med mänskliga värderingar genom WARM

mm
Vikt Genomsnittlig belöning Modeller LLM

Anpassning av AI-system med mänskliga värderingar

Artificiell intelligens (AI)-system blir alltmer kapabla att hjälpa människor i komplexa uppgifter, från kundtjänstchatbotar till medicinska diagnosalgoritmer. Men eftersom dessa AI-system tar på sig mer ansvar är det avgörande att de förblir i linje med mänskliga värderingar och preferenser. Ett sätt att uppnå detta är genom en teknik som kallas förstärkningsinlärning från mänsklig feedback (RLHF). I RLHF belönas eller straffas ett AI-system, känt som policyn, baserat på mänskliga bedömningar av dess beteende. Målet är att politiken ska lära sig att maximera sina belöningar, och därmed agera enligt mänskliga preferenser.

En kärnkomponent i RLHF är belöningsmodellen (RM). RM är ansvarig för att utvärdera policyns åtgärder och resultat, och returnera en belöningssignal för att vägleda inlärningsprocessen. Att designa en bra RM är utmanande, eftersom mänskliga preferenser kan vara komplexa, kontextberoende och till och med inkonsekventa mellan individer. Nyligen föreslog forskare från Google DeepMind en innovativ teknik som kallas Weight Averaged Reward Models (WARM) för att förbättra RM-design.

Problemet med Reward Hacking

Ett stort problem inom RLHF är belöningshackning. Belöningshackning inträffar när policyn hittar kryphål för att spela RM-systemet för att få höga belöningar utan att faktiskt uppfylla de avsedda målen. Anta till exempel att målet är att utbilda en skrivassistent AI för att generera sammanfattningar av hög kvalitet. RM kan belöna kortfattade och informativa sammanfattningar. Politiken kan sedan lära sig att utnyttja detta genom att generera mycket korta, oinformativa sammanfattningar fyllda med nyckelord som lurar RM.

Belöningshackning sker av två huvudorsaker:

  1. Distributionsskifte – RM är utbildad på en begränsad datauppsättning av mänskliga märkta exempel. När den används kan policyns utdata komma från olika distributioner som RM inte generaliserar väl till.
  2. Bullriga etiketter – Mänsklig märkning är ofullkomlig, med oenighet mellan bedömare. RM kan haka på falska signaler snarare än robusta kvalitetsindikatorer.

Belöningshackning leder till värdelösa system som inte matchar mänskliga förväntningar. Ännu värre, det kan resultera i AI-beteenden som är partiska eller till och med farliga om de används slarvigt.

Framväxten av modellsammanslagning

Det växande intresset för modellsammanslagningsstrategier som Model Ratatouille drivs av insikten att större modeller, även om de är kraftfulla, kan vara ineffektiva och opraktiska. Att träna en modell med 1 biljoner parameter kräver oöverkomliga mängder data, beräkning, tid och kostnad. Mer avgörande är att sådana modeller tenderar att överanpassa utbildningsdistributionen, vilket hämmar deras förmåga att generalisera till olika verkliga scenarier.

Modellsammanslagning ger en alternativ väg för att låsa upp större kapacitet utan okontrollerad uppskalning. Genom att återanvända flera specialiserade modeller som tränats på olika distributioner, uppgifter eller mål, syftar modellsammanslagning till att öka mångsidigheten och robustheten utanför distributionen. Utgångspunkten är att olika modeller fångar distinkta prediktiva mönster som kan komplettera varandra när de slås samman.

De senaste resultaten illustrerar löftet med detta koncept. Modeller som erhålls via sammanslagning, trots att de har mycket färre parametrar, kan matcha eller till och med överträffa prestandan hos jättemodeller som GPT-3. Till exempel uppnår en modell Ratatouille-ensemble med bara 7 medelstora kontrollpunkter toppmodern noggrannhet på högdimensionella textuppsättningar, vilket överträffar GPT-3.

Enkelheten att slå samman efter viktgenomsnitt är en stor bonus. Att träna flera hjälpmodeller kräver extra resurser. Men avgörande är att inferens-tidsberäkningen förblir identisk med en enda modell, eftersom vikter kondenseras till en. Detta gör metoden lätt att anpassa, utan oro för ökad latens eller minneskostnader.

Mekanismer bakom modellsammanslagning

Men vad exakt möjliggör dessa noggrannhetsvinster från att slå samman modeller? Den senaste analysen ger några ledtrådar:

  • Förmildrande memorering: Varje modell ser olika blandade partier av datamängden under träning. Genomsnittet minskar all instansspecifik memorering och behåller endast generaliseringar på datauppsättningsnivå.
  • Minska variansen: Modeller som tränas oberoende har okorrelerade fel. Genom att kombinera dem ger genomsnittet ut brus, vilket förbättrar kalibreringen.
  • Regularisering via Diversity: Varierande hjälpuppgifter tvingar modeller att fästa vid mer generaliserbara funktioner som är användbara över distributioner.
  • Ökad robusthet: Inkonsekvens i förutsägelser signalerar osäkerhet. Genomsnittet dämpar avvikande bedömningar, vilket ökar tillförlitligheten.

I huvudsak motverkar sammanslagning av modeller svagheter hos individuella modeller för att förstärka deras kollektiva styrkor. Den sammanslagna representationen fångar de gemensamma underliggande orsaksstrukturerna, och ignorerar tillfälliga variationer.

Denna konceptuella grund kopplar samman modell med andra populära tekniker som ensembling och multi-task inlärning. Alla dessa metoder utnyttjar mångfald mellan modeller eller uppgifter för att få mångsidiga, osäkerhetsmedvetna system. Enkelheten och effektiviteten i viktgenomsnittet ger dock modellsammanslagningen en unik fördel för att avancera verkliga implementeringar.

Vikt genomsnittliga belöningsmodeller

Inriktningsprocess med WARM

Inriktningsprocess med WARM

VARM använder innovativt en proxy belöningsmodell (RM), som är ett viktgenomsnitt av flera individuella RM, var och en finjusterad från samma förtränade LLM men med varierande hyperparametrar. Denna metod förbättrar effektiviteten, tillförlitligheten under distributionsskiften och robustheten mot inkonsekventa preferenser. Studien visar också att användning av WARM som proxy RM, särskilt med ett ökat antal genomsnittliga RMs, förbättrar resultaten och fördröjer uppkomsten av "reward hacking", ett fenomen där kontrollbelöningar försämras med tiden.

Här är en översikt på hög nivå:

  1. Börja med en basspråksmodell förutbildad på en stor korpus. Initiera flera RM genom att lägga till små uppgiftsspecifika lager ovanpå.
  2. Finjustera varje RM separat på datauppsättningen för mänskliga preferenser, med hjälp av olika hyperparametrar som inlärningshastighet för mångfald.
  3. Genomsnittliga vikterna för de finjusterade RM:erna för att få en enda WARM ensemble.

Nyckelinsikten är att viktgenomsnittet endast behåller den oföränderliga informationen som lärs in över alla olika RM. Detta minskar beroendet av falska signaler, vilket ökar robustheten. Ensemblen drar också nytta av variansminskning, vilket förbättrar tillförlitligheten trots distributionsförskjutningar.

Som diskuterats tidigare är mångfald mellan oberoende utbildade modeller avgörande för att låsa upp den fulla potentialen av modellsammanslagning. Men vad finns det för konkreta tekniker för att främja produktiv mångfald?

Den VARMA uppsatsen utforskar några smarta idéer som skulle kunna generalisera bredare:

Beställa Shuffles

Ett trivialt men effektfullt tillvägagångssätt är att blanda ordningen i vilken datapunkter ses av varje modell under träning. Även detta enkla steg avkorrelerar vikter, vilket minskar överflödig memorering av mönster.

Hyperparametervariationer

Att justera hyperparametrar som inlärningshastighet och avhoppssannolikhet för varje körning introducerar användbar mångfald. Modeller konvergerar olika och fångar upp distinkta egenskaper hos datamängden.

Kontrollpunkt Medelvärde – Baklava

Baklava-metoden initierar modeller för sammanslagning från olika ögonblicksbilder längs samma förträningsbana. Detta lättar på begränsningar jämfört med modellsoppor som kräver en delad startpunkt. I förhållande till modellen ratatouille undviker Baklava ytterligare uppgifter. Sammantaget uppnår den en effektiv balans mellan noggrannhet och mångfald.

finjustera flera belöningsmodeller

Processen börjar med en förutbildad Large Language Model (LLM) 𝜃_𝑝𝑡. Från denna modell härleds olika kontrollpunkter {𝜃_𝑠 𝑓 𝑡_𝑖} under en Supervised Fine-Tuning-körning (SFT), var och en samlad in vid olika SFT-träningssteg. Dessa kontrollpunkter används sedan som initieringar för att finjustera flera belöningsmodeller (RM) {𝜙𝑖} på en preferensdatauppsättning. Denna finjustering syftar till att anpassa modellerna för att bättre anpassas till mänskliga preferenser. Efter finjustering kombineras dessa RM genom en process av viktgenomsnitt, vilket resulterar i den slutliga modellen, 𝜙_WARM.

Analyser bekräftar att tillägg av äldre kontrollpunkter genom glidande medelvärde skadar individuell prestation, vilket äventyrar mångfaldsförtjänster. Att endast de slutliga representationerna från varje körning i genomsnitt ger bättre resultat. Generellt sett är det fortfarande en öppen forskningsutmaning att balansera mångfaldsmål med noggrannhet.

Sammantaget överensstämmer modellsammanslagningen väl med den allmänna etiken på området för att effektivt återvinna befintliga resurser för ökad tillförlitlighet, effektivitet och mångsidighet. Enkelheten i viktgenomsnittet befäster dess position som en ledande kandidat för att montera robusta modeller från lättillgängliga byggstenar.

Till skillnad från traditionella ensemblingsmetoder som ger genomsnittliga förutsägelser, håller WARM beräkningsoverhead minimal genom att bara behålla en enda uppsättning vikter. Experiment med textsammanfattningsuppgifter visar WARMs effektivitet:

  • För best-of-N-provtagning, uppnår WARM 92.5 % vinstgrad mot slumpmässigt urval enligt mänskliga preferensetiketter.
  • I RLHF når en WARM-policy 79.4 % vinst jämfört med en policy som tränas med en enda RM efter samma antal steg.
  • WARM fortsätter att prestera bra även när en fjärdedel av de mänskliga etiketterna är skadade.

Dessa resultat illustrerar WARMs potential som en praktisk teknik för att utveckla verkliga AI-assistenter som beter sig tillförlitligt. Genom att jämna ut inkonsekvenser i mänsklig feedback, kan WARM-policyer förbli robust anpassade till mänskliga värderingar även när de fortsätter att lära sig av nya erfarenheter.

Den större bilden

WARM sitter i skärningspunkten mellan två nyckeltrender inom AI-anpassningsforskning. Först är studiet av out-of-distribution (OOD) generalisering, som syftar till att förbättra modellens prestanda på ny data som skiljer sig från utbildningsdistributionen. För det andra är forskning om algoritmisk robusthet, med fokus på tillförlitlighet trots små indatastörningar eller brus.

Genom att dra kopplingar mellan dessa fält kring begreppet inlärda invarianser, flyttar WARM oss mot mer rigoröst grundade tekniker för värdeanpassning. Insikterna från WARM skulle kunna generaliseras även utanför RLHF, vilket ger lektioner för bredare maskininlärningssystem som interagerar med den öppna världen.

Naturligtvis är belöningsmodellering bara en del av justeringspusslet. Vi behöver fortfarande framsteg när det gäller andra utmaningar som belöningsspecifikation, skalbar tillsyn och säker utforskning. I kombination med kompletterande tekniker kan WARM påskynda utvecklingen av AI som på ett hållbart sätt främjar mänskligt välstånd. Genom att gemensamt belysa principerna som ligger till grund för robust anpassning kartlägger forskare vägen till nyttig, etisk AI.

Jag har ägnat de senaste fem åren åt att fördjupa mig i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika programvaruutvecklingsprojekt, med särskilt fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är ivrig att utforska vidare.