Inteligența artificială
Avansarea alinierii AI cu valorile umane prin WARM

Alinierea sistemelor AI cu valorile umane
Sistemele de inteligență artificială (AI) devin din ce în ce mai capabile să asiste oamenii în sarcini complexe, de la chatbot-uri de serviciu pentru clienți până la algoritmi de diagnosticare medicală. Cu toate acestea, pe măsură ce aceste sisteme AI își asumă mai multe responsabilități, este esențial ca acestea să rămână aliniate cu valorile și preferințele umane. O abordare pentru a realiza acest lucru este printr-o tehnică numită învățare prin consolidare din feedbackul uman (RLHF). În RLHF, un sistem AI, cunoscut sub numele de politică, este recompensat sau penalizat pe baza judecăților umane asupra comportamentului său. Scopul este ca politica să învețe să-și maximizeze recompensele și, astfel, să se comporte conform preferințelor umane.
O componentă de bază a RLHF este modelul de recompensă (RM). MR este responsabil de evaluarea acțiunilor și rezultatelor politicii și de a returna un semnal de recompensă pentru a ghida procesul de învățare. Proiectarea unui RM bun este o provocare, deoarece preferințele umane pot fi complexe, dependente de context și chiar inconsecvente între indivizi. Recent, cercetătorii de la Google DeepMind au propus o tehnică inovatoare numită Weight Averaged Reward Models (WARM) pentru a îmbunătăți designul RM.
Problema cu hackingul de recompense
O problemă majoră în RLHF este hackingul de recompense. Hackingul de recompense are loc atunci când politica găsește lacune pentru a juca sistemul RM pentru a obține recompense mari fără a îndeplini efectiv obiectivele vizate. De exemplu, să presupunem că scopul este de a instrui un asistent de scriere AI pentru a genera rezumate de înaltă calitate. RM ar putea recompensa rezumate concise și informative. Politica ar putea apoi să învețe să exploateze acest lucru prin generarea de rezumate foarte scurte, neinformative, presărate cu cuvinte cheie care păcălesc RM.
Hackingul de recompense are loc din două motive principale:
- Schimbarea distribuției – RM este instruit pe un set limitat de date de exemple marcate de oameni. Când sunt implementate, rezultatele politicii pot proveni din diferite distribuții la care RM nu se generalizează bine.
- Etichete zgomotoase – Etichetarea umană este imperfectă, cu dezacorduri între evaluatori. RM se poate fixa mai degrabă pe semnale false decât pe indicatori robusti de calitate.
Hackingul cu recompense duce la sisteme inutile care nu se potrivesc așteptărilor umane. Mai rău, poate duce la comportamente AI care sunt părtinitoare sau chiar periculoase dacă sunt implementate neglijent.
Ascensiunea fuziunii modelelor
Interesul crescând pentru strategiile de fuzionare a modelelor, cum ar fi Model Ratatouille, este determinat de conștientizarea că modelele mai mari, deși puternice, pot fi ineficiente și impracticabile. Antrenarea unui model cu 1 trilion de parametri necesită cantități prohibitive de date, calcul, timp și cost. Mai important, astfel de modele tind să se adapteze prea mult la distribuția de antrenament, împiedicându-le capacitatea de a se generaliza la diverse scenarii din lumea reală.
Fuziunea modelelor oferă o rută alternativă pentru a debloca capabilități mai mari fără o extindere necontrolată. Prin reutilizarea mai multor modele specializate instruite pe diferite distribuții, sarcini sau obiective, fuziunea modelelor își propune să sporească versatilitatea și robustețea în afara distribuției. Premisa este că diferite modele captează modele predictive distincte care se pot completa reciproc atunci când sunt îmbinate.
Rezultatele recente ilustrează promisiunea acestui concept. Modelele obținute prin fuziune, în ciuda faptului că au mult mai puțini parametri, pot egala sau chiar depăși performanța modelelor gigantice precum GPT-3. De exemplu, un ansamblu Model Ratatouille de doar 7 puncte de control de dimensiuni medii atinge o acuratețe de ultimă generație pe seturi de date de implicare textuală cu dimensiuni mari, depășind GPT-3.
Simplitatea îmbinării prin medierea greutății este un bonus uriaș. Antrenarea mai multor modele auxiliare necesită resurse suplimentare. Dar, în mod esențial, calculul timpului de inferență rămâne identic cu un singur model, deoarece ponderile sunt condensate într-unul singur. Acest lucru face ca metoda să se adapteze cu ușurință, fără preocupări legate de creșterea latenței sau a costurilor de memorie.
Mecanisme din spatele fuziunii modelelor
Dar ce anume permite aceste câștiguri de precizie din combinarea modelelor? Analizele recente oferă câteva indicii:
- Atenuarea memorării: Fiecare model vede diferite loturi amestecate ale setului de date în timpul antrenamentului. Valoarea mediei diminuează orice memorare specifică unei instanțe, reținând doar generalizările la nivel de set de date.
- Reducerea variației: Modelele antrenate independent au erori necorelate. Combinarea acestora duce la o medie a zgomotului, îmbunătățind calibrarea.
- Regularizare prin diversitate: Variantele sarcini auxiliare forțează modelele să se prindă pe caracteristici mai generalizabile utile în toate distribuțiile.
- Creșterea robusteței: Incoerența în predicții semnalează incertitudine. Mediile moderează judecățile aberante, sporind fiabilitatea.
În esență, fuziunea modelelor contrabalansează punctele slabe ale modelelor individuale pentru a le amplifica punctele forte colective. Reprezentarea îmbinată surprinde structurile cauzale subiacente comune, ignorând variațiile incidentale.
Această bază conceptuală conectează fuziunea modelelor cu alte tehnici populare, cum ar fi asamblarea și învățarea cu mai multe sarcini. Toate aceste metode valorifică diversitatea dintre modele sau sarcini pentru a obține sisteme versatile, conștiente de incertitudine. Cu toate acestea, simplitatea și eficiența medierii greutății conferă îmbinării modelului un avantaj unic pentru avansarea implementărilor în lumea reală.
Modele de recompensă cu greutate medie
CALD folosește în mod inovator un model de recompensă proxy (RM), care este o medie ponderală a mai multor RM-uri individuale, fiecare ajustat din același LLM pre-antrenat, dar cu hiperparametri diferiți. Această metodă îmbunătățește eficiența, fiabilitatea în schimburile de distribuție și robustețea împotriva preferințelor inconsecvente. Studiul arată, de asemenea, că utilizarea WARM ca RM proxy, în special cu un număr crescut de RM medii, îmbunătățește rezultatele și întârzie debutul „hacking-ului de recompense”, un fenomen în care recompensele de control se deteriorează în timp.
Iată o prezentare generală la nivel înalt:
- Începeți cu un model de limbaj de bază antrenat în prealabil pe un corpus mare. Inițializați mai multe RM-uri prin adăugarea de straturi mici specifice sarcinii deasupra.
- Ajustați fiecare RM separat pe setul de date despre preferințele umane, folosind diferiți hiperparametri, cum ar fi rata de învățare pentru diversitate.
- Faceți o medie a greutăților RM-urilor reglate pentru a obține un singur ansamblu WARM.
Perspectiva cheie este că media ponderii reține doar informațiile invariante care sunt învățate în toate diversele RM. Acest lucru reduce dependența de semnale false, sporind robustețea. Ansamblul beneficiază și de reducerea varianței, îmbunătățind fiabilitatea în ciuda schimbărilor de distribuție.
După cum sa discutat anterior, diversitatea dintre modelele antrenate independent este crucială pentru a debloca întregul potențial al fuziunii modelelor. Dar care sunt câteva tehnici concrete de promovare a diversității productive?
Lucrarea WARM explorează câteva idei inteligente care s-ar putea generaliza mai larg:
Comandă amestecuri
O abordare trivială, dar de impact, este amestecarea ordinii în care punctele de date sunt văzute de fiecare model în timpul antrenamentului. Chiar și acest pas simplu decorelează greutățile, reducând memorarea redundantă a tiparelor.
Variații hiperparametrice
Modificarea hiperparametrilor, cum ar fi rata de învățare și probabilitatea de abandon pentru fiecare cursă, introduce o diversitate utilă. Modelele converg diferit, captând proprietăți distincte ale setului de date.
Punctul de control mediu – Baklava
Metoda Baklava inițializează modele pentru fuzionarea din diferite instantanee de-a lungul aceleiași traiectorii de preantrenament. Acest lucru relaxează constrângerile în comparație cu supele model care impun un punct de plecare comun. Față de ratatouille model, Baklava evită sarcini suplimentare. În general, atinge un echilibru eficient între acuratețe și diversitate.

Procesul începe cu un model de limbaj mare (LLM) pre-antrenat 𝜃_𝑝𝑡. Din acest model, sunt derivate diferite puncte de control {𝜃_𝑠 𝑓 𝑡_𝑖} în timpul unei rulări de reglare fină supravegheată (SFT), fiecare colectat la diferiți pași de antrenament SFT. Aceste puncte de control sunt apoi folosite ca inițializari pentru reglarea mai precisă a mai multor modele de recompensă (RM) {𝜙𝑖} pe un set de date de preferințe. Această reglare fină își propune să adapteze modelele pentru a se alinia mai bine cu preferințele umane. După reglare fină, aceste RM-uri sunt combinate printr-un proces de mediere a greutății, rezultând modelul final, 𝜙_WARM.
Analiza confirmă faptul că adăugarea de puncte de control mai vechi prin schimbarea mediei dăunează performanței individuale, compromițând meritele diversității. Medierea doar a reprezentărilor finale de la fiecare rulare are performanțe mai bune. În general, echilibrarea obiectivelor de diversitate cu menținerea preciziei rămâne o provocare deschisă în cercetare.
În general, fuziunea modelelor se aliniază bine cu etosul general din domeniu pentru a recicla resursele existente în mod eficient pentru o fiabilitate, eficiență și versatilitate sporite. Simplitatea medierii greutății își consolidează poziția ca candidat principal pentru asamblarea modelelor robuste din blocuri de construcție ușor disponibile.
Spre deosebire de metodele tradiționale de ansamblu care fac predicții medii, WARM menține la minim cheltuielile de calcul, menținând doar un singur set de greutăți. Experimentele privind sarcinile de rezumare a textului demonstrează eficacitatea WARM:
- Pentru eșantionarea cea mai bună din N, WARM atinge o rată de câștig de 92.5% față de selecția aleatorie conform etichetelor preferințelor umane.
- În RLHF, o politică WARM atinge o rată de câștig de 79.4% față de o politică antrenată cu un singur RM după același număr de pași.
- WARM continuă să funcționeze bine chiar și atunci când un sfert din etichetele umane sunt corupte.
Aceste rezultate ilustrează potențialul WARM ca tehnică practică de dezvoltare a asistenților AI din lumea reală care se comportă fiabil. Prin netezirea inconsecvențelor în feedback-ul uman, politicile WARM pot rămâne puternic aliniate cu valorile umane, chiar dacă continuă să învețe din experiențe noi.
Cu cât mai mare Imagine
WARM se află la intersecția a două tendințe cheie în cercetarea alinierii AI. În primul rând este studiul generalizării out-of-distribution (OOD), care își propune să îmbunătățească performanța modelului pe date noi care diferă de distribuția de antrenament. În al doilea rând este cercetarea robusteței algoritmice, concentrându-se pe fiabilitate în ciuda micilor perturbații de intrare sau a zgomotului.
Prin crearea de conexiuni între aceste câmpuri în jurul noțiunii de invarianțe învățate, WARM ne mută către tehnici mai riguros fundamentate pentru alinierea valorii. Perspectivele de la WARM s-ar putea generaliza chiar și dincolo de RLHF, oferind lecții pentru sisteme mai largi de învățare automată care interacționează cu lumea deschisă.
Desigur, modelarea recompensei este doar o piesă a puzzle-ului de aliniere. Încă avem nevoie de progres în alte provocări, cum ar fi specificarea recompenselor, supravegherea scalabilă și explorarea în siguranță. Combinat cu tehnici complementare, WARM ar putea accelera dezvoltarea IA care promovează în mod durabil prosperitatea umană. Prin elucidarea colectivă a principiilor care stau la baza alinierii robuste, cercetătorii trasează calea către IA benefică și etică.