mozzicone LoReFT: ottimizzazione della rappresentazione per modelli linguistici - Unite.AI
Seguici sui social

Intelligenza Artificiale

LoReFT: ottimizzazione della rappresentazione per modelli linguistici

mm

Pubblicato il

 on

LoReFT: ottimizzazione della rappresentazione per modelli linguistici

I metodi di messa a punto efficiente dei parametri o PeFT cercano di adattare modelli linguistici di grandi dimensioni tramite aggiornamenti a un numero limitato di pesi. Tuttavia, la maggior parte del lavoro esistente sull’interpretabilità ha dimostrato che le rappresentazioni codificano informazioni ricche di significato, suggerendo che potrebbe essere un’alternativa migliore e più potente modificare queste rappresentazioni. I modelli di grandi dimensioni pre-addestrati vengono spesso ottimizzati per essere utilizzati per nuovi domini o attività e, durante il processo di ottimizzazione, un singolo modello di base può essere adattato a un'ampia varietà di attività anche con solo piccole quantità di dati disponibili nel dominio al modello. Tuttavia, il processo di messa a punto di un intero modello richiede risorse ed è costoso, soprattutto per i modelli linguistici con un numero significativamente più elevato di dimensioni e parametri. 

I metodi di messa a punto efficiente dei parametri o PeFT propongono di affrontare i costi elevati associati alla messa a punto dell'intero modello aggiornando solo una piccola quantità dei pesi totali disponibili, un processo che aiuta a ridurre i tempi di addestramento insieme all'utilizzo della memoria. Ciò che è più importante è che i metodi di messa a punto efficiente dei parametri o PeFT hanno dimostrato prestazioni simili alla messa a punto in diversi contesti pratici. Gli adattatori, una famiglia comune di metodi PeFT o di messa a punto efficiente dei parametri, apprendono una modifica che può essere aggiunta a un ulteriore set di pesi che operano insieme al modello base congelato, con adattatori recenti come LoRA riducono il numero di parametri addestrabili nei parametri appresi aggiornamenti del peso utilizzando approssimazioni di basso rango anziché matrici a peso completo durante l'addestramento degli adattatori. 

Con lavori precedenti che dimostrano che la modifica delle rappresentazioni potrebbe essere un'alternativa migliore ai metodi di fine tuning o PeFT efficienti in termini di parametri, in questo articolo parleremo di metodi di fine tuning o ReFT della rappresentazione che operano su un modello congelato e apprenderanno attività specifiche interventi sulle rappresentazioni nascoste. Questo articolo mira a coprire in modo approfondito il quadro ReFt o Representation Fine-tuning ed esploriamo il meccanismo, la metodologia, l'architettura del quadro insieme al suo confronto con i quadri all'avanguardia. Quindi iniziamo. 

ReFT: ottimizzazione della rappresentazione per modelli linguistici

Nel tentativo di adottare modelli linguistici pre-addestrati a nuovi domini e compiti, i framework attuali perfezionano frequentemente questi modelli linguistici pre-addestrati poiché con il processo di ottimizzazione implementato, un singolo modello base può essere adattato anche a una varietà di compiti quando si lavora con una piccola quantità di dati nel dominio. Anche se il processo di messa a punto migliora le prestazioni complessive, è un processo costoso soprattutto se il modello linguistico ha un numero significativamente elevato di parametri. Per affrontare questo problema e ridurre i costi associati, PeFT o Parametri efficienti quadri di perfezionamento aggiorna solo una piccola frazione dei pesi totali, un processo che non solo riduce il tempo di addestramento, ma riduce anche l'utilizzo della memoria, consentendo ai framework PeFT di ottenere prestazioni simili rispetto agli approcci di messa a punto completa in scenari pratici. Gli adattatori, una famiglia comune di PeFT, funzionano apprendendo una modifica che può essere aggiunta a un ulteriore set di pesi insieme a un sottoinsieme di pesi che funzionano all'unisono con il modello base con pesi congelati. Framework di adattatori recenti come LoRA e QLoRA hanno dimostrato che è possibile addestrare adattatori a precisione completa su modelli a precisione ridotta senza influire sulle prestazioni. Gli adattatori sono generalmente più efficienti ed efficaci rispetto ad altri metodi che introducono nuovi componenti del modello. 

Uno dei principali punti salienti dell'attuale stato dell'arte dei quadri di regolazione fine efficienti in termini di parametri è che invece di modificare le rappresentazioni, modificano i pesi. Tuttavia, i framework che si occupano di interpretabilità hanno dimostrato che le rappresentazioni codificano ricche informazioni semantiche, suggerendo che la modifica delle rappresentazioni potrebbe essere un approccio migliore e più potente rispetto agli aggiornamenti del peso. Questo presupposto che la modifica delle rappresentazioni sia l'approccio migliore è ciò che costituisce il fondamento del ReFT o quadro di ottimizzazione della rappresentazione che addestra gli interventi invece di adattare i pesi del modello, consentendo al modello di manipolare una piccola frazione di tutte le rappresentazioni nel tentativo di guidare i comportamenti del modello per risolvere compiti a valle durante l'inferenza. I metodi ReFT o di ottimizzazione della rappresentazione sono sostituti rapidi del PeFT basato sul peso o dei framework di ottimizzazione efficiente dei parametri. L'approccio ReFT trae ispirazione da modelli recenti che lavorano con un'ampia interpretabilità del modello che interviene sulle rappresentazioni per trovare meccanismi causali fedeli e guida il comportamento del modello durante l'inferenza, e quindi può essere visto come una generalizzazione dei modelli di modifica della rappresentazione. Basandosi sullo stesso, LoReFT o Low-Rank Subspace ReFT è un'istanza forte ed efficace di ReFT, ed è una parametrizzazione di ReFT che interviene su rappresentazioni nascoste nello spazio lineare attraversato dalla matrice di proiezione di basso rango e si basa direttamente sul DAS o framework di ricerca di allineamento distribuito. 

Andando avanti, contrariamente alla messa a punto completa, il PeFT o il quadro di messa a punto efficiente dei parametri addestra solo una piccola frazione dei parametri del modello e riesce ad adattare il modello alle attività a valle. Il quadro di messa a punto efficiente dei parametri può essere classificato in tre categorie principali:

  • Metodi basati su adattatore: I metodi basati su adattatore addestrano moduli aggiuntivi come livelli completamente connessi sopra il modello preaddestrato con pesi congelati. Gli adattatori in serie inseriscono componenti tra il perceptron multistrato o MLP e LM o gli strati di attenzione del modello di grandi dimensioni, mentre gli adattatori paralleli aggiungono moduli accanto ai componenti esistenti. Poiché gli adattatori aggiungono nuovi componenti che non possono essere facilmente ripiegati nei pesi del modello esistente, rappresentano un onere aggiuntivo durante l'inferenza. 
  • LoRA: LoRA insieme alle sue varianti recenti approssimano i pesi additivi durante l'addestramento utilizzando matrici di basso rango e non richiedono spese generali aggiuntive durante l'inferenza poiché gli aggiornamenti dei pesi possono essere uniti nel modello, ed è il motivo per cui sono considerati gli attuali quadri PeFT più forti. 
  • Metodi basati su prompt: I metodi basati su prompt aggiungono soft token inizializzati in modo casuale nell'input e addestrano i loro incorporamenti mantenendo congelati i pesi del modello linguistico. Le prestazioni offerte da questi metodi spesso non sono soddisfacenti se confrontate con altri approcci PeFT e comportano anche costi generali di inferenza significativi. 

Invece di aggiornare i pesi, il framework ReFT apprende gli interventi per modificare una piccola frazione delle rappresentazioni totali. Inoltre, lavori recenti sull'ingegneria della rappresentazione e sullo sterzo di attivazione hanno dimostrato che l'aggiunta di vettori di sterzo fissi al flusso residuo potrebbe facilitare un certo grado di controllo su generazioni di modelli di grandi dimensioni pre-addestrati senza richiedere un uso intensivo delle risorse. ritocchi. Altri framework hanno dimostrato che la modifica delle rappresentazioni con un'operazione di ridimensionamento e traduzione appresa può tentare di eguagliare ma non superare le prestazioni offerte dagli adattatori LoRA su un'ampia gamma di attività con meno parametri appresi. Inoltre, il successo di questi framework in una serie di compiti ha dimostrato che le rappresentazioni introdotte da modelli linguistici pre-addestrati portano una ricca semantica, sebbene le prestazioni di questi modelli non siano ottimali, con il risultato che i PeFT continuano a rappresentare l'approccio all'avanguardia senza alcun onere inferenziale aggiuntivo. 

ReFT: metodologia e architettura

Per mantenere semplice il processo di conservazione dello stile, il framework ReFT presuppone come modello target un modello di grandi dimensioni basato su trasformatore in grado di produrre una rappresentazione contestualizzata della sequenza di token. Per una data sequenza con n numero di token di input, il framework ReFT incorpora innanzitutto questi token di input in un elenco di rappresentazioni dopo il quale gli m livelli calcolano successivamente l'elenco di rappresentazioni nascoste in funzione dell'elenco precedente di rappresentazioni nascoste. Ogni rappresentazione nascosta è un vettore e il modello linguistico utilizza le rappresentazioni nascoste finali per produrre le previsioni. Il framework ReFT considera sia modelli linguistici mascherati che modelli linguistici autoregressivi. Ora, secondo l'ipotesi della rappresentazione lineare, nelle reti neurali i concetti sono codificati all'interno dei sottospazi lineari delle rappresentazioni. Modelli recenti hanno riscontrato che questa affermazione è vera nei modelli di reti neurali addestrati sul linguaggio naturale insieme ad altre distribuzioni di input. 

Inoltre, negli studi sull'interpretabilità, il quadro di astrazione casuale utilizza interventi di interscambio per stabilire casualmente il ruolo dei componenti della rete neurale quando si implementano comportamenti particolari. La logica alla base dell'intervento di interscambio è che se si fissa una rappresentazione su ciò che sarebbe stato per un input controfattuale, e questo intervento influenza l'output del modello in modo coerente nel modo in cui le affermazioni fatte dal framework ReFT riguardo al componente responsabile della produzione quella rappresentazione, allora la componente gioca un ruolo causale nel comportamento. Sebbene esistano alcuni metodi, l'intervento di interscambio distribuito è l'approccio ideale per verificare se un concetto è codificato in un sottospazio lineare di una rappresentazione, come sostenuto dall'ipotesi della rappresentazione lineare. Inoltre, il metodo DAS è stato utilizzato in precedenza per trovare rappresentazioni lineari nei modelli linguistici di attributi di entità, sentimento, caratteristiche linguistiche e ragionamento matematico. Tuttavia, diversi esperimenti hanno indicato che il metodo DAS è altamente espressivo e possiede la capacità di trovare sottospazi causali efficaci anche quando il modello linguistico del trasformatore è stato inizializzato in modo casuale, e quindi deve ancora apprendere qualsiasi rappresentazione specifica del compito, risultando nel discutere se il DAS sia efficace e sufficientemente responsabile per i compiti di interpretabilità. 

L'espressività offerta da DAS suggerisce che l'approccio potrebbe essere uno strumento ideale per controllare il comportamento del modello linguistico insieme al suo lavoro sulla generazione controllabile e sull'editing responsabile. Pertanto, per adattare i modelli linguistici per le attività a valle, il framework ReFT utilizza l'operazione di intervento di interscambio distribuito per creare un nuovo metodo efficiente per i parametri. Inoltre, il metodo ReFT è un insieme di interventi e il framework impone che per due interventi qualsiasi che operano sullo stesso livello, le posizioni di intervento devono essere disgiunte, con i parametri di tutte le funzioni di intervento che rimangono indipendenti. Di conseguenza, il ReFT è un quadro generico che comprende interventi sulle rappresentazioni nascoste durante il passaggio in avanti del modello. 

ReFT: esperimenti e risultati

Per valutare le sue prestazioni rispetto ai framework PEFT esistenti, il framework ReFT conduce esperimenti su quattro diversi benchmark di elaborazione del linguaggio naturale e copre oltre 20 set di dati, con l'obiettivo principale di fornire un quadro completo delle prestazioni del framework LoReFT in diversi scenari. Inoltre, quando il framework LoReFT viene implementato nella vita reale, gli sviluppatori devono decidere quanti interventi apprendere insieme alle posizioni di input e ai livelli su cui applicarli ciascuno. Per completare l'attività, il framework ReFT ottimizza quattro iperparametri. 

  1. Il numero di posizioni del prefisso su cui intervenire. 
  2. Il numero di posizioni del suffisso su cui intervenire. 
  3. Su quale insieme di layer intervenire. 
  4. Se collegare o meno i parametri di intervento tra diverse posizioni nello stesso livello. 

In questo modo, il framework ReFT semplifica lo spazio di ricerca degli iperparametri e garantisce solo un costo di inferenza aggiuntivo fisso che non si adatta alla lunghezza del prompt. 

La tabella sopra confronta l'accuratezza dei framework LLaMA-7B e LLaMA-13B rispetto ai modelli PEFT esistenti su 8 set di dati di ragionamento basati sul buon senso. Come si può osservare, il modello LoReFT supera gli approcci PEFT esistenti con un margine decente, nonostante abbia molti meno parametri, con le prestazioni medie di tre esecuzioni riportate con parametri distinti per il modello LoReFT. Il param(%) viene calcolato dividendo il numero di parametri addestrabili per il numero di parametri totali del modello di base di grandi dimensioni. 

La tabella sopra riassume il confronto dell'accuratezza dei quadri LLaMA-7B e LLaMA-13B rispetto ai modelli PEFT esistenti su 4 diversi set di dati di ragionamento aritmetico, con il quadro che riporta la prestazione media di tre esecuzioni con semi casuali distinti. Come si può osservare, nonostante abbia molti meno parametri(%), il framework LoReFT supera di gran lunga i framework PEFT esistenti. 

La tabella sopra riassume il confronto dell'accuratezza dei framework RoBERTa-base e RoBERTa-large rispetto ai modelli PEFT esistenti nel benchmark GLUE, con il framework che riporta la prestazione media di cinque esecuzioni con semi casuali distinti. Come si può osservare, nonostante abbia molti meno parametri(%), il framework LoReFT supera di gran lunga i framework PEFT esistenti. 

Considerazioni finali

In questo articolo, abbiamo parlato di LoReFT, una potente alternativa ai framework PEFT esistenti che raggiunge ottime prestazioni attraverso benchmark di quattro diversi domini offrendo allo stesso tempo fino a 50 volte l'efficienza offerta dai precedenti modelli PEFT all'avanguardia. I modelli di grandi dimensioni pre-addestrati vengono spesso ottimizzati per essere utilizzati per nuovi domini o attività e, durante il processo di ottimizzazione, un singolo modello di base può essere adattato a un'ampia varietà di attività anche con solo piccole quantità di dati disponibili nel dominio al modello. Tuttavia, il processo di messa a punto di un intero modello richiede risorse ed è costoso, soprattutto per i modelli linguistici con un numero significativamente più elevato di dimensioni e parametri. I metodi di messa a punto efficiente dei parametri o PeFT propongono di affrontare i costi elevati associati alla messa a punto dell'intero modello aggiornando solo una piccola quantità dei pesi totali disponibili, un processo che aiuta a ridurre i tempi di addestramento insieme all'utilizzo della memoria. In particolare, LoReFT stabilisce nuove prestazioni all’avanguardia sul ragionamento basato sul buon senso, sul rispetto delle istruzioni e sulla comprensione del linguaggio naturale rispetto ai PEFT più forti.

"Un ingegnere di professione, uno scrittore a memoria". Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedito a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.