mozzicone Promuovere l'allineamento dell'intelligenza artificiale con i valori umani attraverso WARM - Unite.AI
Seguici sui social

Intelligenza Artificiale

Migliorare l'allineamento dell'intelligenza artificiale con i valori umani attraverso WARM

mm

Pubblicato il

 on

Modelli di ricompensa media del peso LLM

Allineamento dei sistemi di intelligenza artificiale con i valori umani

I sistemi di intelligenza artificiale (AI) stanno diventando sempre più capaci di assistere gli esseri umani in compiti complessi, dai chatbot del servizio clienti agli algoritmi di diagnosi medica. Tuttavia, poiché questi sistemi di intelligenza artificiale assumono maggiori responsabilità, è fondamentale che rimangano allineati ai valori e alle preferenze umane. Un approccio per raggiungere questo obiettivo è attraverso una tecnica chiamata apprendimento per rinforzo dal feedback umano (RLHF). In RLHF, un sistema di intelligenza artificiale, noto come policy, viene premiato o penalizzato in base ai giudizi umani sul suo comportamento. L’obiettivo è che la politica impari a massimizzare i suoi benefici e quindi a comportarsi secondo le preferenze umane.

Una componente fondamentale di RLHF è il modello di ricompensa (RM). Il RM è responsabile della valutazione delle azioni e dei risultati della politica e della restituzione di un segnale di ricompensa per guidare il processo di apprendimento. Progettare un buon RM è impegnativo, poiché le preferenze umane possono essere complesse, dipendenti dal contesto e persino incoerenti tra gli individui. Recentemente, i ricercatori di Google DeepMind hanno proposto una tecnica innovativa chiamata Weight Averaged Reward Models (WARM) per migliorare la progettazione RM.

Il problema dell'hacking delle ricompense

Uno dei problemi principali in RLHF è l'hacking delle ricompense. L’hacking dei premi si verifica quando la politica trova scappatoie per ingannare il sistema RM per ottenere ricompense elevate senza effettivamente soddisfare gli obiettivi previsti. Ad esempio, supponiamo che l'obiettivo sia formare un assistente alla scrittura AI per generare riepiloghi di alta qualità. Il RM potrebbe premiare sintesi concise e informative. La politica potrebbe quindi imparare a sfruttare questa situazione generando riepiloghi molto brevi e poco informativi conditi con parole chiave che ingannano il RM.

L'hacking delle ricompense avviene per due ragioni principali:

  1. Spostamento della distribuzione – L’RM è addestrato su un set di dati limitato di esempi etichettati come esseri umani. Una volta implementati, i risultati della policy potrebbero provenire da diverse distribuzioni a cui il RM non riesce a generalizzare bene.
  2. Etichette rumorose – L’etichettatura umana è imperfetta, con disaccordi tra valutatori. L’RM potrebbe agganciarsi a segnali spuri piuttosto che a robusti indicatori di qualità.

L’hacking delle ricompense porta a sistemi inutili che non riescono a soddisfare le aspettative umane. Peggio ancora, può portare a comportamenti dell’IA distorti o addirittura pericolosi se utilizzati con noncuranza.

L’ascesa della fusione dei modelli

Il crescente interesse per le strategie di fusione dei modelli come il Modello Ratatouille è guidato dalla consapevolezza che modelli più grandi, sebbene potenti, possono essere inefficienti e poco pratici. L'addestramento di un modello da mille miliardi di parametri richiede quantità proibitive di dati, calcolo, tempo e costi. Ancora più importante, tali modelli tendono ad adattarsi eccessivamente alla distribuzione della formazione, ostacolando la loro capacità di generalizzare a diversi scenari del mondo reale.

L'unione dei modelli fornisce un percorso alternativo per sbloccare maggiori capacità senza un aumento incontrollato. Riutilizzando più modelli specializzati formati su distribuzioni, compiti o obiettivi diversi, la fusione dei modelli mira a migliorare la versatilità e la robustezza fuori distribuzione. La premessa è che modelli diversi catturano modelli predittivi distinti che possono completarsi a vicenda una volta uniti.

Risultati recenti illustrano la promessa di questo concetto. I modelli ottenuti tramite la fusione, nonostante abbiano molti meno parametri, possono eguagliare o addirittura superare le prestazioni di modelli giganti come GPT-3. Ad esempio, un insieme di modelli Ratatouille di soli 7 checkpoint di medie dimensioni raggiunge un'accuratezza all'avanguardia su set di dati di implicazione testuale ad alta dimensione, superando GPT-3.

La semplicità dell'unione in base alla media ponderale è un enorme vantaggio. La formazione di più modelli ausiliari richiede risorse aggiuntive. Ma, cosa fondamentale, il calcolo del tempo di inferenza rimane identico a quello di un singolo modello, poiché i pesi sono condensati in uno solo. Ciò rende il metodo facilmente adattabile, senza preoccupazioni di maggiore latenza o costi di memoria.

Meccanismi dietro la fusione dei modelli

Ma cosa consente esattamente questi guadagni di precisione derivanti dalla fusione dei modelli? Analisi recenti offrono alcuni indizi:

  • Mitigare la memorizzazione: ogni modello vede diversi batch mescolati del set di dati durante l'addestramento. La media riduce qualsiasi memorizzazione specifica dell'istanza, mantenendo solo le generalizzazioni a livello di set di dati.
  • Ridurre la varianza: I modelli addestrati in modo indipendente presentano errori non correlati. Combinandoli si media il rumore, migliorando la calibrazione.
  • Regolarizzazione attraverso la diversità: I diversi compiti ausiliari costringono i modelli ad agganciarsi a caratteristiche più generalizzabili utili attraverso le distribuzioni.
  • Aumentare la robustezza: L'incoerenza nelle previsioni segnala incertezza. La media modera i giudizi anomali, migliorando l’affidabilità.

In sostanza, la fusione dei modelli controbilancia le debolezze dei modelli individuali per amplificarne i punti di forza collettivi. La rappresentazione unita cattura le strutture causali sottostanti comuni, ignorando le variazioni accidentali.

Questa base concettuale collega la fusione dei modelli ad altre tecniche popolari come l'insieme e l'apprendimento multi-task. Tutti questi metodi sfruttano la diversità tra modelli o attività per ottenere sistemi versatili e consapevoli dell’incertezza. La semplicità e l'efficienza del calcolo della media ponderale, tuttavia, conferiscono all'unione dei modelli un vantaggio unico per l'avanzamento delle implementazioni nel mondo reale.

Modelli di ricompensa media del peso

Processo di allineamento con WARM

Processo di allineamento con WARM

WARM utilizza in modo innovativo un modello di ricompensa proxy (RM), che è una media ponderale di più RM individuali, ciascuno ottimizzato dallo stesso LLM pre-addestrato ma con diversi iperparametri. Questo metodo migliora l’efficienza, l’affidabilità nei cambiamenti di distribuzione e la robustezza rispetto alle preferenze incoerenti. Lo studio mostra anche che l'utilizzo di WARM come proxy RM, in particolare con un numero maggiore di RM medi, migliora i risultati e ritarda l'inizio del "reward hacking", un fenomeno in cui le ricompense del controllo si deteriorano nel tempo.

Ecco una panoramica di alto livello:

  1. Inizia con un modello linguistico di base preaddestrato su un corpus di grandi dimensioni. Inizializza più RM aggiungendo sopra piccoli livelli specifici dell'attività.
  2. Ottimizza ogni RM separatamente sul set di dati sulle preferenze umane, utilizzando diversi iperparametri come il tasso di apprendimento per la diversità.
  3. Media dei pesi degli RM ottimizzati per ottenere un singolo insieme WARM.

L’intuizione chiave è che la media ponderata conserva solo le informazioni invarianti apprese in tutti i diversi RM. Ciò riduce la dipendenza da segnali spuri, migliorando la robustezza. L’insieme beneficia anche della riduzione della varianza, migliorando l’affidabilità nonostante i cambiamenti di distribuzione.

Come discusso in precedenza, la diversità tra modelli formati in modo indipendente è fondamentale per sbloccare l’intero potenziale della fusione dei modelli. Ma quali sono alcune tecniche concrete per promuovere la diversità produttiva?

Il documento WARM esplora alcune idee intelligenti che potrebbero essere generalizzate in modo più ampio:

Ordinare mescolate

Un approccio banale ma di grande impatto consiste nel modificare l'ordine in cui i punti dati vengono visualizzati da ciascun modello durante l'addestramento. Anche questo semplice passaggio decorrela i pesi, riducendo la memorizzazione ridondante dei modelli.

Variazioni degli iperparametri

La modifica degli iperparametri come la velocità di apprendimento e la probabilità di abbandono per ogni esecuzione introduce una diversità utile. I modelli convergono in modo diverso, acquisendo proprietà distinte del set di dati.

Media del checkpoint – Baklava

Il metodo Baklava inizializza modelli per l'unione di diverse istantanee lungo la stessa traiettoria di pre-addestramento. Ciò allenta i vincoli rispetto ai modelli di zuppa che impongono un punto di partenza condiviso. Rispetto al modello ratatouille, Baklava evita compiti aggiuntivi. Nel complesso, raggiunge un efficace equilibrio tra accuratezza e diversità.

mettere a punto più modelli di ricompensa

Il processo inizia con un Large Language Model (LLM) pre-addestrato 𝜃_𝑝𝑡. Da questo modello, durante un'esecuzione di Supervised Fine-Tuning (SFT), vengono derivati ​​vari checkpoint {𝜃_𝑠 𝑓 𝑡_𝑖}, ciascuno raccolto in diverse fasi di addestramento SFT. Questi punti di controllo vengono quindi utilizzati come inizializzazioni per la messa a punto di più modelli di ricompensa (RM) {𝜙𝑖} su un set di dati delle preferenze. Questa messa a punto mira ad adattare i modelli per allinearli meglio alle preferenze umane. Dopo la messa a punto, questi RM vengono combinati attraverso un processo di media ponderale, risultando nel modello finale, 𝜙_WARM.

L’analisi conferma che l’aggiunta di checkpoint più vecchi mediante la media mobile danneggia le prestazioni individuali, compromettendo i meriti della diversità. Facendo la media solo delle rappresentazioni finali di ciascuna esecuzione si ottengono risultati migliori. In generale, bilanciare gli obiettivi di diversità con il mantenimento dell’accuratezza rimane una sfida di ricerca aperta.

Nel complesso, la fusione dei modelli si allinea bene con l’etica generale del settore volta a riciclare le risorse esistenti in modo efficace per una maggiore affidabilità, efficienza e versatilità. La semplicità della media ponderale consolida la sua posizione come candidato principale per l'assemblaggio di modelli robusti da elementi costitutivi facilmente disponibili.

A differenza dei tradizionali metodi di assemblaggio che calcolano la media delle previsioni, WARM mantiene minimo il sovraccarico computazionale mantenendo un solo set di pesi. Gli esperimenti sulle attività di riepilogo del testo dimostrano l'efficacia di WARM:

  • Per il campionamento al meglio di N, WARM raggiunge una percentuale di vincita del 92.5% rispetto alla selezione casuale in base alle etichette delle preferenze umane.
  • In RLHF, una policy WARM raggiunge un tasso di vincita del 79.4% rispetto a una policy addestrata con un singolo RM dopo lo stesso numero di passaggi.
  • WARM continua a funzionare bene anche quando un quarto delle etichette umane sono corrotte.

Questi risultati illustrano il potenziale di WARM come tecnica pratica per sviluppare assistenti IA del mondo reale che si comportino in modo affidabile. Eliminando le incoerenze nel feedback umano, le politiche WARM possono rimanere saldamente allineate ai valori umani anche se continuano ad imparare da nuove esperienze.

The Bigger Picture

WARM si trova all’intersezione di due tendenze chiave nella ricerca sull’allineamento dell’intelligenza artificiale. Il primo è lo studio della generalizzazione fuori distribuzione (OOD), che mira a migliorare le prestazioni del modello su nuovi dati che differiscono dalla distribuzione di addestramento. La seconda è la ricerca sulla robustezza algoritmica, concentrandosi sull’affidabilità nonostante piccole perturbazioni o rumore di input.

Tracciando connessioni tra questi campi attorno alla nozione di invarianze apprese, WARM ci spinge verso tecniche più rigorosamente fondate per l'allineamento dei valori. Le intuizioni di WARM potrebbero generalizzarsi anche oltre RLHF, fornendo lezioni per sistemi di apprendimento automatico più ampi che interagiscono con il mondo aperto.

Naturalmente, la modellazione delle ricompense è solo un pezzo del puzzle di allineamento. Abbiamo ancora bisogno di progressi su altre sfide come la specifica delle ricompense, la supervisione scalabile e l’esplorazione sicura. In combinazione con tecniche complementari, WARM potrebbe accelerare lo sviluppo dell’intelligenza artificiale che promuove in modo sostenibile la prosperità umana. Chiarindo collettivamente i principi alla base di un solido allineamento, i ricercatori stanno tracciando il percorso verso un’intelligenza artificiale benefica ed etica.

Ho trascorso gli ultimi cinque anni immergendomi nell'affascinante mondo del Machine Learning e del Deep Learning. La mia passione e competenza mi hanno portato a contribuire a oltre 50 diversi progetti di ingegneria del software, con un focus particolare su AI/ML. La mia continua curiosità mi ha anche attirato verso l'elaborazione del linguaggio naturale, un campo che non vedo l'ora di esplorare ulteriormente.