Følg os

Kunstig intelligens

Forstærkningslæringens mange ansigter: At forme store sprogmodeller

mm

I de senere år har Large Language Models (LLM'er) markant omdefineret området for kunstig intelligens (AI), hvilket gør det muligt for maskiner at forstå og generere menneskelignende tekst med bemærkelsesværdig dygtighed. Denne succes tilskrives i vid udstrækning fremskridt inden for maskinlæringsmetoder, herunder deep learning og forstærkningslæring (RL). Mens superviseret læring har spillet en afgørende rolle i træning af LLM'er, er forstærkningslæring dukket op som et kraftfuldt værktøj til at forfine og forbedre deres evner ud over simpel mønstergenkendelse.

Forstærkende læring gør det muligt for LLM'er at lære af erfaringer og optimere deres adfærd baseret på belønninger eller straf. Forskellige varianter af RL, såsom Reinforcement Learning from Human Feedback (RLHF), Reinforcement Learning with Verifiable Rewards (RLVR), Group Relative Policy Optimization (GRPO) og Direct Preference Optimization (DPO), er blevet udviklet til at finjustere LLM'er, sikre, at de stemmer overens med menneskelige præferencer og forbedre deres ræsonnement.

Denne artikel udforsker de forskellige forstærkende læringstilgange, der former LLM'er, og undersøger deres bidrag og indflydelse på AI-udvikling.

Forståelse af forstærkningslæring i AI

Reinforcement Learning (RL) er et maskinlæringsparadigme, hvor en agent lærer at træffe beslutninger ved at interagere med et miljø. I stedet for udelukkende at stole på mærkede datasæt, tager agenten handlinger, modtager feedback i form af belønninger eller sanktioner og justerer sin strategi i overensstemmelse hermed.

For LLM'er sikrer forstærkende læring, at modeller genererer svar, der stemmer overens med menneskelige præferencer, etiske retningslinjer og praktiske ræsonnementer. Målet er ikke kun at producere syntaktisk korrekte sætninger, men også at gøre dem nyttige, meningsfulde og tilpasset samfundets normer.

Forstærkende læring fra menneskelig feedback (RLHF)

En af de mest udbredte RL-teknikker i LLM-træning er  RLHF. I stedet for udelukkende at stole på foruddefinerede datasæt, forbedrer RLHF LLM'er ved at inkorporere menneskelige præferencer i træningsløkken. Denne proces involverer typisk:

  1. Indsamling af menneskelig feedback: Menneskelige evaluatorer vurderer modelgenererede svar og rangerer dem baseret på kvalitet, sammenhæng, hjælpsomhed og nøjagtighed.
  2. Træning af en belønningsmodel: Disse placeringer bruges derefter til at træne en separat belønningsmodel, der forudsiger, hvilket output mennesker foretrækker.
  3. Finjustering med RL: LLM er trænet ved at bruge denne belønningsmodel til at forfine sine svar baseret på menneskelige præferencer.

Denne tilgang er blevet brugt til at forbedre modeller som ChatGPT og Claude. Mens RLHF har spillet en afgørende rolle i at gøre LLM'er mere tilpasset brugernes præferencer, reducere skævheder og forbedre deres evne til at følge komplekse instruktioner, er det ressourcekrævende, og det kræver et stort antal menneskelige annotatorer til at evaluere og finjustere AI-output. Denne begrænsning fik forskerne til at udforske alternative metoder, som f.eks Forstærkende læring fra AI-feedback (RLAIF) og Forstærkende læring med verificerbare belønninger (RLVR).

RLAIF: Reinforcement Learning from AI Feedback

I modsætning til RLHF er RLAIF afhængig af AI-genererede præferencer til at træne LLM'er frem for menneskelig feedback. Det fungerer ved at anvende et andet AI-system, typisk et LLM, til at evaluere og rangere svar, hvilket skaber et automatiseret belønningssystem, der kan guide LLM's læreproces.

Denne tilgang adresserer skalerbarhedsproblemer forbundet med RLHF, hvor menneskelige annoteringer kan være dyre og tidskrævende. Ved at anvende AI-feedback øger RLAIF konsistensen og effektiviteten, hvilket reducerer variabiliteten, der indføres af subjektive menneskelige meninger. Selvom RLAIF er en værdifuld tilgang til at forfine LLM'er i skala, kan det nogle gange forstærke eksisterende skævheder, der er til stede i et AI-system.

Forstærkende læring med verificerbare belønninger (RLVR)

Mens RLHF og RLAIF er afhængig af subjektiv feedback, bruger RLVR objektive, programmatisk verificerbare belønninger til at træne LLM'er. Denne metode er særlig effektiv til opgaver, der har et klart korrekthedskriterium, såsom:

  • Matematisk problemløsning
  • Generering af kode
  • Struktureret databehandling

I RLVR evalueres modellens svar ved hjælp af foruddefinerede regler eller algoritmer. En verificerbar belønningsfunktion bestemmer, om et svar opfylder de forventede kriterier, og tildeler en høj score til korrekte svar og en lav score til forkerte.

Denne tilgang reducerer afhængigheden af ​​menneskelig mærkning og AI-bias, hvilket gør træningen mere skalerbar og omkostningseffektiv. For eksempel i matematiske ræsonnementopgaver er RLVR blevet brugt til at forfine modeller som f.eks DeepSeeks R1-Zero, hvilket giver dem mulighed for at forbedre sig selv uden menneskelig indblanding.

Optimering af forstærkningslæring til LLM'er

Ud over de førnævnte teknikker, der guider, hvordan LLM'er modtager belønninger og lærer af feedback, er et lige så afgørende aspekt af RL, hvordan modeller vedtager (eller optimerer) deres adfærd (eller politikker) baseret på disse belønninger. Det er her avancerede optimeringsteknikker kommer i spil.

Optimering i RL er i bund og grund processen med at opdatere modellens adfærd for at maksimere belønningen. Mens traditionelle RL-tilgange ofte lider af ustabilitet og ineffektivitet ved finjustering af LLM'er, er der udviklet nye fremgangsmåder til optimering af LLM'er. Her er førende optimeringsstrategier, der bruges til træning af LLM'er:

  • Proksimal politikoptimering (PPO): PPO er en af ​​de mest udbredte RL-teknikker til finjustering af LLM'er. En stor udfordring i RL er at sikre, at modelopdateringer forbedrer ydeevnen uden pludselige, drastiske ændringer, der kan reducere svarkvaliteten. PPO løser dette ved at introducere kontrollerede politikopdateringer, forfine modelsvar trinvist og sikkert for at opretholde stabilitet. Det balancerer også udforskning og udnyttelse, og hjælper modeller med at finde bedre svar, samtidig med at den forstærker effektiv adfærd. Derudover er PPO prøveeffektiv ved at bruge mindre databatches for at reducere træningstiden og samtidig opretholde høj ydeevne. Denne metode er udbredt anvendte I modeller som ChatGPT sikrer man, at svar forbliver hjælpsomme, relevante og i overensstemmelse med menneskelige forventninger uden at passe til specifikke belønningssignaler.
  • Direkte præferenceoptimering (DPO): DPO er en anden RL-optimeringsteknik, der fokuserer på direkte at optimere modellens output, så det stemmer overens med menneskelige præferencer. I modsætning til traditionelle RL-algoritmer, der er afhængige af kompleks belønningsmodellering, optimerer DPO modellen direkte baseret på binære præferencedata – hvilket betyder, at den blot bestemmer, om ét output er bedre end et andet. Tilgangen er afhængig af menneskelige evaluatorer til at rangere flere svar genereret af modellen for en given prompt. Derefter finjusterer de modellen for at øge sandsynligheden for at producere højere rangerede svar i fremtiden. DPO er særligt effektiv i scenarier, hvor det er vanskeligt at opnå detaljerede belønningsmodeller. Ved at forenkle RL gør DPO det muligt for AI-modeller at forbedre deres output uden den beregningsbyrde, der er forbundet med mere komplekse RL-teknikker.
  • Group Relative Policy Optimization (GRPO): En af de seneste udviklinger inden for RL-optimeringsteknikker til LLM'er er GRPO. Mens typiske RL-teknikker, som PPO, kræver en værdimodel for at estimere fordelen ved forskellige svar, som kræver høj beregningskraft og betydelige hukommelsesressourcer, eliminerer GRPO behovet for en separat værdimodel ved at bruge belønningssignaler fra forskellige generationer på samme prompt. Det betyder, at i stedet for at sammenligne output med en statisk værdimodel, sammenligner den dem med hinanden, hvilket reducerer beregningsmæssige overhead betydeligt. En af de mest bemærkelsesværdige anvendelser af GRPO blev set i DeepSeek R1-Zero, en model, der blev trænet helt uden overvåget finjustering og formåede at udvikle avancerede ræsonnement færdigheder gennem selvevolution.

The Bottom Line

Forstærkende læring spiller en afgørende rolle i at raffinere store sprogmodeller (LLM'er) ved at forbedre deres overensstemmelse med menneskelige præferencer og optimere deres ræsonnementevner. Teknikker som RLHF, RLAIF og RLVR giver forskellige tilgange til belønningsbaseret læring, mens optimeringsmetoder som PPO, DPO og GRPO forbedrer træningens effektivitet og stabilitet. Efterhånden som LLM'er fortsætter med at udvikle sig, bliver forstærkningslæringens rolle afgørende for at gøre disse modeller mere intelligente, etiske og rimelige.

Dr. Tehseen Zia er fast lektor ved COMSATS University Islamabad og har en ph.d. i kunstig intelligens fra Wiens teknologiske universitet, Østrig. Med speciale i kunstig intelligens, maskinlæring, datavidenskab og computersyn har han ydet betydelige bidrag med publikationer i velrenommerede videnskabelige tidsskrifter. Dr. Tehseen har også ledet forskellige industrielle projekter som Principal Investigator og fungeret som AI-konsulent.