Verbind je met ons

Artificial Intelligence

Verbetering van de afstemming van AI op menselijke waarden via WARM

mm
Gewicht Gemiddelde beloningsmodellen LLM

Afstemming van AI-systemen met menselijke waarden

Systemen voor kunstmatige intelligentie (AI) worden steeds beter in staat mensen te helpen bij complexe taken, van chatbots voor klantenservice tot algoritmen voor medische diagnoses. Naarmate deze AI-systemen echter meer verantwoordelijkheden op zich nemen, is het van cruciaal belang dat ze in lijn blijven met menselijke waarden en voorkeuren. Eén benadering om dit te bereiken is via een techniek die versterkend leren van menselijke feedback (RLHF) wordt genoemd. In RLHF wordt een AI-systeem, bekend als het beleid, beloond of bestraft op basis van menselijke oordelen over zijn gedrag. Het doel is dat het beleid leert de beloningen te maximaliseren en zich aldus te gedragen naar menselijke voorkeuren.

Een kerncomponent van RLHF is het beloningsmodel (RM). De RM is verantwoordelijk voor het evalueren van de acties en resultaten van het beleid en voor het retourneren van een beloningssignaal om het leerproces te begeleiden. Het ontwerpen van een goed RM is een uitdaging, omdat menselijke voorkeuren complex, contextafhankelijk en zelfs inconsistent kunnen zijn tussen individuen. Onlangs hebben onderzoekers van Google DeepMind een innovatieve techniek voorgesteld, genaamd Weight Averaged Reward Models (WARM), om het RM-ontwerp te verbeteren.

Het probleem met beloningshacking

Een groot probleem bij RLHF is het hacken van beloningen. Beloningshacking vindt plaats wanneer het beleid mazen in de wet vindt om het RM-systeem te bespelen om hoge beloningen te verkrijgen zonder daadwerkelijk aan de beoogde doelstellingen te voldoen. Stel dat het doel is om een ​​schrijfassistent AI te trainen in het genereren van samenvattingen van hoge kwaliteit. De RM zou beknopte en informatieve samenvattingen kunnen belonen. Het beleid zou hier vervolgens misbruik van kunnen maken door zeer korte, niet-informatieve samenvattingen te genereren, doorspekt met trefwoorden die de RM misleiden.

Beloningshacking gebeurt om twee belangrijke redenen:

  1. Distributieverschuiving – De RM is getraind op een beperkte dataset van door mensen gelabelde voorbeelden. Wanneer het beleid wordt geïmplementeerd, kunnen de resultaten van het beleid afkomstig zijn van verschillende distributies waarnaar de RM niet goed generaliseert.
  2. Lawaaierige etiketten – Menselijke etikettering is onvolmaakt, met meningsverschillen tussen beoordelaars. De RM kan zich richten op valse signalen in plaats van op robuuste kwaliteitsindicatoren.

Beloningshacking leidt tot nutteloze systemen die niet voldoen aan de menselijke verwachtingen. Erger nog, het kan resulteren in AI-gedrag dat bevooroordeeld of zelfs gevaarlijk is als het onzorgvuldig wordt ingezet.

De opkomst van het samenvoegen van modellen

De toenemende belangstelling voor strategieën voor het samenvoegen van modellen, zoals Model Ratatouille, wordt gedreven door het besef dat grotere modellen, hoewel krachtig, inefficiënt en onpraktisch kunnen zijn. Het trainen van een model met 1 biljoen parameters vereist een enorme hoeveelheid data, rekenkracht, tijd en kosten. Belangrijker nog is dat dergelijke modellen de neiging hebben zich te veel aan te passen aan de trainingsverdeling, waardoor hun vermogen om te generaliseren naar diverse scenario's uit de echte wereld wordt belemmerd.

Het samenvoegen van modellen biedt een alternatieve route om grotere mogelijkheden te ontsluiten zonder ongecontroleerde opschaling. Door meerdere gespecialiseerde modellen te hergebruiken die zijn getraind op verschillende distributies, taken of doelstellingen, heeft het samenvoegen van modellen tot doel de veelzijdigheid en de robuustheid buiten de distributie te vergroten. Het uitgangspunt is dat verschillende modellen verschillende voorspellende patronen vastleggen die elkaar kunnen aanvullen wanneer ze worden samengevoegd.

Recente resultaten illustreren de belofte van dit concept. Modellen die via samenvoeging zijn verkregen, kunnen, ondanks dat ze veel minder parameters hebben, de prestaties van gigantische modellen als GPT-3 evenaren of zelfs overtreffen. Een Model Ratatouille-ensemble van slechts zeven middelgrote controlepunten bereikt bijvoorbeeld de allernieuwste nauwkeurigheid op hoogdimensionale tekstuele datasets en presteert beter dan GPT-7.

De eenvoud van het samenvoegen op basis van gewichtsmiddeling is een enorme bonus. Het trainen van meerdere hulpmodellen vergt wel extra middelen. Maar cruciaal is dat de berekening op basis van de inferentietijd identiek blijft aan die van een enkel model, omdat de gewichten tot één model worden samengevoegd. Dit maakt de methode gemakkelijk aanpasbaar, zonder zorgen over verhoogde latentie of geheugenkosten.

Mechanismen achter het samenvoegen van modellen

Maar wat maakt deze nauwkeurigheidswinst door het samenvoegen van modellen precies mogelijk? Recente analyse biedt enkele aanwijzingen:

  • Het verzachten van het onthouden: elk model ziet tijdens de training verschillende geschudde batches van de dataset. Middeling vermindert elke instantiespecifieke memorisatie, waarbij alleen generalisaties op datasetniveau behouden blijven.
  • Variantie verminderen: Onafhankelijk getrainde modellen hebben niet-gecorreleerde fouten. Door ze te combineren wordt de ruis gemiddeld, waardoor de kalibratie wordt verbeterd.
  • Regularisatie via diversiteit: Variërende hulptaken dwingen modellen om gebruik te maken van meer generaliseerbare kenmerken die nuttig zijn voor alle distributies.
  • Robuustheid vergroten: Inconsistentie in voorspellingen duidt op onzekerheid. Middeling modereert uitschieters, waardoor de betrouwbaarheid toeneemt.

In wezen compenseert het samenvoegen van modellen de zwakke punten van individuele modellen om hun collectieve sterke punten te versterken. De samengevoegde representatie legt de gemeenschappelijke onderliggende causale structuren vast, waarbij incidentele variaties worden genegeerd.

Deze conceptuele basis verbindt het samenvoegen van modellen met andere populaire technieken zoals ensemblering en leren met meerdere taken. Al deze methoden maken gebruik van diversiteit tussen modellen en taken om veelzijdige, onzekerheidsbewuste systemen te verkrijgen. De eenvoud en efficiëntie van het middelen van het gewicht geeft het samenvoegen van modellen echter een uniek voordeel voor het bevorderen van implementaties in de echte wereld.

Gewichtsgemiddelde beloningsmodellen

Afstemmingsproces met WARM

Afstemmingsproces met WARM

WARM maakt op innovatieve wijze gebruik van een proxy-beloningsmodel (RM), dat een gewichtsgemiddelde is van meerdere individuele RM's, elk verfijnd op basis van dezelfde vooraf getrainde LLM maar met variërende hyperparameters. Deze methode verbetert de efficiëntie, betrouwbaarheid bij distributieverschuivingen en robuustheid tegen inconsistente voorkeuren. Het onderzoek toont ook aan dat het gebruik van WARM als proxy-RM, vooral bij een groter aantal gemiddelde RM's, de resultaten verbetert en het begin van 'reward hacking' vertraagt, een fenomeen waarbij controlebeloningen in de loop van de tijd verslechteren.

Hier is een overzicht op hoog niveau:

  1. Begin met een basistaalmodel dat vooraf is getraind op een groot corpus. Initialiseer meerdere RM's door er kleine taakspecifieke lagen aan toe te voegen.
  2. Verfijn elke RM afzonderlijk op de dataset van menselijke voorkeuren, met behulp van verschillende hyperparameters, zoals leersnelheid voor diversiteit.
  3. Gemiddelde van de gewichten van de verfijnde RM's om één WARM-ensemble te verkrijgen.

Het belangrijkste inzicht is dat bij gewichtsmiddeling alleen de invariante informatie wordt behouden die over alle verschillende RM’s heen wordt geleerd. Dit vermindert de afhankelijkheid van valse signalen, waardoor de robuustheid wordt vergroot. Het ensemble profiteert ook van variantiereductie, waardoor de betrouwbaarheid verbetert ondanks distributieverschuivingen.

Zoals eerder besproken is diversiteit tussen onafhankelijk getrainde modellen cruciaal voor het ontsluiten van het volledige potentieel van het samenvoegen van modellen. Maar wat zijn enkele concrete technieken om productieve diversiteit te bevorderen?

Het WARM-paper onderzoekt een paar slimme ideeën die breder kunnen worden gegeneraliseerd:

Shuffles bestellen

Een triviale maar impactvolle aanpak is het door elkaar gooien van de volgorde waarin datapunten door elk model tijdens de training worden gezien. Zelfs deze eenvoudige stap correleert de gewichten, waardoor het overbodig onthouden van patronen wordt verminderd.

Hyperparametervariaties

Door hyperparameters zoals leersnelheid en uitvalkans voor elke run aan te passen, wordt nuttige diversiteit geïntroduceerd. Modellen convergeren op verschillende manieren, waardoor verschillende eigenschappen van de dataset worden vastgelegd.

Controlepuntgemiddelde – Baklava

De Baklava-methode initialiseert modellen voor het samenvoegen van verschillende snapshots langs hetzelfde voortrainingstraject. Dit versoepelt de beperkingen in vergelijking met modelsoepen die een gedeeld startpunt vereisen. In vergelijking met model ratatouille vermijdt Baklava extra taken. Over het geheel genomen bereikt het een effectief evenwicht tussen nauwkeurigheid en diversiteit.

het verfijnen van meerdere beloningsmodellen

Het proces begint met een vooraf getraind Large Language Model (LLM) 𝜃_𝑝𝑡. Uit dit model worden verschillende controlepunten {𝜃_𝑠 𝑓 𝑡_𝑖} afgeleid tijdens een Supervised Fine-Tuning (SFT) run, elk verzameld bij verschillende SFT-trainingsstappen. Deze controlepunten worden vervolgens gebruikt als initialisaties voor het verfijnen van meerdere beloningsmodellen (RM's) {𝜙𝑖} op een voorkeursgegevensset. Deze verfijning heeft tot doel de modellen aan te passen zodat ze beter aansluiten bij menselijke voorkeuren. Na verfijning worden deze RM’s gecombineerd via een proces van gewichtsmiddeling, wat resulteert in het uiteindelijke model, 𝜙_WARM.

Analyse bevestigt dat het toevoegen van oudere controlepunten door voortschrijdend gemiddelde de individuele prestaties schaadt, waardoor de diversiteitsvoordelen in gevaar komen. Het middelen van alleen de uiteindelijke representaties van elke run presteert beter. Over het algemeen blijft het balanceren van diversiteitsdoelen met het behoud van nauwkeurigheid een open onderzoeksuitdaging.

Over het geheel genomen sluit het samenvoegen van modellen goed aan bij het algemene ethos in het veld om bestaande hulpbronnen effectief te recyclen voor verbeterde betrouwbaarheid, efficiëntie en veelzijdigheid. De eenvoud van gewichtsmiddeling verstevigt zijn positie als leidende kandidaat voor het samenstellen van robuuste modellen uit gemakkelijk verkrijgbare bouwstenen.

In tegenstelling tot traditionele samensmeltingsmethoden die voorspellingen gemiddeld maken, houdt WARM de rekenkundige overhead minimaal door slechts één set gewichten aan te houden. Experimenten met taken voor het samenvatten van teksten tonen de effectiviteit van WARM aan:

  • Voor best-of-N-sampling behaalt WARM een winstpercentage van 92.5% tegen willekeurige selectie volgens menselijke voorkeurslabels.
  • In RLHF bereikt een WARM-beleid een winstpercentage van 79.4% vergeleken met een beleid dat is getraind met een enkele RM na hetzelfde aantal stappen.
  • WARM blijft goed presteren, zelfs als een kwart van de menselijke labels beschadigd is.

Deze resultaten illustreren het potentieel van WARM als praktische techniek voor het ontwikkelen van echte AI-assistenten die zich betrouwbaar gedragen. Door inconsistenties in menselijke feedback weg te werken, kan het WARM-beleid robuust in lijn blijven met de menselijke waarden, zelfs als het blijft leren van nieuwe ervaringen.

The Bigger Picture

WARM bevindt zich op het kruispunt van twee belangrijke trends in het onderzoek naar AI-uitlijning. Ten eerste is er de studie van out-of-distribution (OOD)-generalisatie, die tot doel heeft de modelprestaties te verbeteren op nieuwe gegevens die verschillen van de trainingsdistributie. Ten tweede is er onderzoek naar algoritmische robuustheid, waarbij de nadruk ligt op betrouwbaarheid ondanks kleine verstoringen van de invoer of ruis.

Door verbanden te leggen tussen deze velden rond het idee van aangeleerde invarianties, brengt WARM ons in de richting van meer rigoureus gefundeerde technieken voor waardeafstemming. De inzichten van WARM zouden zelfs buiten RLHF kunnen worden gegeneraliseerd en lessen kunnen opleveren voor bredere machine learning-systemen die interageren met de open wereld.

Uiteraard is beloningsmodellering slechts een stukje van de uitlijningspuzzel. We hebben nog steeds vooruitgang nodig op het gebied van andere uitdagingen, zoals beloningsspecificatie, schaalbaar toezicht en veilige verkenning. Gecombineerd met complementaire technieken zou WARM de ontwikkeling kunnen versnellen van AI die de menselijke welvaart duurzaam bevordert. Door gezamenlijk de principes op te helderen die ten grondslag liggen aan een robuuste afstemming, brengen onderzoekers de route naar nuttige, ethische AI ​​in kaart.

De afgelopen vijf jaar heb ik me verdiept in de fascinerende wereld van Machine Learning en Deep Learning. Door mijn passie en expertise heb ik bijgedragen aan meer dan 50 verschillende software engineering projecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een gebied dat ik graag verder wil verkennen.