Seguici sui social

Formazione sugli incorporamenti di testo migliorati con modelli linguistici di grandi dimensioni

Ingegneria rapida

Formazione sugli incorporamenti di testo migliorati con modelli linguistici di grandi dimensioni

mm

Gli incorporamenti di testo sono rappresentazioni vettoriali di parole, frasi, paragrafi o documenti che ne catturano il significato semantico. Fungono da elemento fondamentale in molte applicazioni di elaborazione del linguaggio naturale (NLP) odierne, tra cui il recupero delle informazioni, la risposta alle domande, la ricerca semantica e altro ancora.

incorporamento di vettori

incorporamento di vettori

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) come GPT-3 hanno mostrato capacità impressionanti nell’apprendimento in poche riprese e nella generazione del linguaggio naturale. Possiamo sfruttare gli LLM per far avanzare anche lo stato degli incorporamenti di testo? Nel loro giornale “Miglioramento degli incorporamenti di testo con modelli linguistici di grandi dimensioni“, i ricercatori di Microsoft propongono un nuovo metodo che ottiene risultati superiori generando dati di addestramento sintetici con LLM e perfezionandoli.

Sfide con i metodi esistenti

Le tradizionali tecniche di incorporamento del testo come le medie ponderate dei vettori di parole o TF-IDF non riescono a catturare adeguatamente le ricche informazioni contestuali nel testo. Metodi più recenti basati su modelli linguistici pre-addestrati come BERT ottengono incorporamenti molto migliori e consapevoli del contesto.

Tuttavia, richiedono complesse pipeline di formazione in più fasi:

  • Pre-addestramento su miliardi di coppie di testo debolmente etichettate o artificiali
  • Ottimizza set di dati limitati curati manualmente

Ciò richiede ingenti risorse di calcolo e impegno umano per la raccolta dei dati. I dati sulla formazione sono inoltre limitati in termini di diversità e copertura linguistica. Ad esempio, il benchmark BEIR comprende set di dati per solo 15 attività di recupero in inglese.

I metodi esistenti utilizzano prevalentemente architetture più piccole in stile BERT come modello backbone. Non sono in grado di trarre vantaggio da LLM più avanzati e tecniche correlate.

Metodologia: generazione di dati sintetici con LLM

Per superare queste limitazioni, i ricercatori propongono un nuovo approccio di formazione in una sola fase che sfrutta LLM come GPT-3 e GPT-4 per generare diversi dati di formazione sintetici.

I passaggi chiave sono:

  1. Tassonomia delle attività: Definire una tassonomia che classifichi le attività di incorporamento del testo in:
    • Compiti asimmetrici (query e documenti senza parafrasi, ad esempio ricerca)
    • Compiti simmetrici (query e documento sono parafrasi, ad esempio somiglianza semantica)
  2. Progettazione rapida: Crea modelli di prompt personalizzati per ciascun tipo di attività che guidano il LLM a generare esempi di formazione pertinenti.
  3. Generazione di dati sintetici: Promuovere il LLM con i prompt progettati per generare centinaia di migliaia di coppie (query, documento) che coprono un'ampia varietà di attività semantiche in 93 lingue.
  4. Formazione modello: Ottimizza un potente LLM open source come Mistral sui dati sintetici utilizzando la perdita contrastiva.

Questa metodologia consente di creare ampi dati di addestramento per diverse attività in più lingue senza alcuno sforzo di etichettatura umana. Sfruttando le conoscenze già integrate negli LLM attraverso la pre-formazione su corpora su scala web, possiamo sintetizzare dati di alta qualità su misura per l'incorporamento di testo.

I ricercatori lo dimostrano con una strategia di prompt in 2 fasi:

  • Richiedi a GPT-4 di suggerire potenziali attività di recupero

Richiesta di generazione di attività di recupero di alto livello

    Richiesta di generazione di attività di recupero di alto livello
  • Richiedilo nuovamente per generare campioni (query, documenti) in base alle attività suggerite

n generare triplette (query, positive, hard negative).

    n generare triplette (query, positive, hard negative).

Alcuni aspetti chiave della progettazione del prompt:

  • Il linguaggio naturale richiede istruzioni intuitive simili a quelle umane
  • Segnaposto per incoraggiare la diversità (ad esempio lunghezza della query, chiarezza, lunghezza del documento)
  • Combinazione di dati da più modelli per lo stesso tipo di attività
  • Ponderazione delle lingue in base alla disponibilità delle risorse

In totale, sono stati in grado di generare 500 esempi di incorporamento di testo con un costo di calcolo di 180 milioni di token. La lingua dominante era l'inglese (43%) seguita da polacco, giapponese, italiano e altre.

Per l'addestramento del modello, hanno optato per la messa a punto del parametro 7B open source Mistral modello invece di architetture più piccole in stile BERT. Poiché Mistral era già pre-addestrato su enormi corpora di testo, non è stata necessaria alcuna ulteriore pre-addestrazione contrastiva. L'aggiunta ha fornito miglioramenti trascurabili.

L’intera messa a punto ha richiesto meno di 1 passaggi, utilizzando un mix di dati sintetici e etichettati dall’uomo. Ciò dimostra l’efficienza campionaria dell’approccio proposto.

Risultati

I ricercatori hanno valutato il loro modello sul benchmark MTEB, che copre diversi compiti tra classificazione, clustering, somiglianza semantica, riepilogo e recupero delle informazioni.

Il loro modello ha sovraperformato lo stato dell'arte precedente di 2.4 punti nel punteggio medio, stabilendo nuovi record per quasi tutte le categorie:

Modello SOTA precedente Modello proposto
Classificazione 76.0 78.5
il clustering 46.1 50.3
Classificazione a coppie 87.1 88.3
Riclassificazione 60.0 60.2
Recupero 54.3 56.9
STS 83.1 84.6
Riassunto 31.6 31.4
Media 64.2 66.6

Sorprendentemente, anche senza utilizzare dati etichettati e senza formazione esclusivamente su dati sintetici, ha raggiunto un’accuratezza competitiva – solo 3.5 punti indietro rispetto al modello completamente supervisionato. Ciò dimostra la fattibilità di generare incorporamenti di testo semplicemente utilizzando LLM, senza sforzi di annotazione umana.

I ricercatori hanno inoltre valutato il benchmark MIRACL multilingue che copre 18 lingue. Il loro modello ha sovraperformato il precedente sui linguaggi ad alto contenuto di risorse, ma è risultato più debole su quelli con poche risorse. Ipotizziamo che ciò potrebbe essere mitigato pre-formazione di LLM più estensivamente su lingue a scarse risorse.

In sintesi, gli incorporamenti di testo addestrati sui dati sintetici generati da LLM stabiliscono nuovi risultati all'avanguardia, utilizzando al tempo stesso una formazione più semplice ed efficiente rispetto ai precedenti approcci a più fasi. Con ulteriori ricerche sull'ingegneria tempestiva e sulla qualità dei dati sintetici, questa metodologia potrebbe far avanzare notevolmente gli incorporamenti di testo multilingue.

Analisi

Questo lavoro offre diversi spunti preziosi:

  • Gli LLM come GPT-3 e GPT-4 hanno un'impressionante capacità di generare dati di formazione sintetici di alta qualità per diverse attività di PNL quando richiesto in modo appropriato. Ciò può ridurre la dipendenza dai dati etichettati dagli esseri umani.
  • Per gli incorporamenti di testo, il pre-addestramento contrastivo fornisce vantaggi trascurabili rispetto alla semplice messa a punto di modelli come Mistral che hanno già un pre-addestramento su scala di trilioni. Questa è una visione importante dell’efficienza della formazione.
  • I metodi di generazione aumentata di recupero consentono agli LLM di accedere dinamicamente alla conoscenza esterna. Pertanto, migliorare l'incorporamento del testo è utile per migliorare questi LLM.
  • C’è un notevole margine di miglioramento nelle lingue con poche risorse. LLM multilingue pre-formati su dati più rappresentativi potrebbero aiutare a colmare questa lacuna.
  • Concettualmente, la modellazione del linguaggio e l’incorporamento del testo sono due facce della stessa medaglia: comprendere la semantica del linguaggio. Con la richiesta di dati sintetici, gli LLM possono essere ottimizzati organicamente in incorporamenti senza pipeline complesse.

Alcune direzioni promettenti per il lavoro futuro includono:

  • Sfruttare LLM open source come GPT-NeoX per generare dati sintetici
  • Esplorare la post-formazione leggera per adattare gli incorporatori a contesti più lunghi
  • Sviluppo di tecniche di ingegneria tempestiva per controllare la qualità e la copertura delle attività
  • Metodi per migliorare la latenza di inferenza e i costi di archiviazione per uso industriale

Oltre a superare i benchmark, l’utilizzo di modelli linguistici di grandi dimensioni per migliorare l’incorporamento del testo apre interessanti possibilità per il futuro. Man mano che gli LLM continuano ad avanzare nella loro padronanza del linguaggio naturale, è probabile che migliori anche la loro attitudine a generare dati sintetici ad alta fedeltà.

Tuttavia, restano direzioni critiche di ricerca per tradurre questo potenziale in un impatto nel mondo reale.

Personalizzazione e controllo

Un vantaggio chiave dei dati sintetici è la capacità di generare in modo programmatico esempi su misura per esigenze specifiche. Come dimostrato nel documento, il prompt engineering consente di creare dati di addestramento per centinaia di migliaia di attività di incorporamento.

Tuttavia, le attuali pratiche di progettazione tempestiva rimangono più un’arte che una scienza. Lo sviluppo di metodi sistematici e riproducibili per controllare con precisione le proprietà dei dati generati amplierebbe l'applicabilità di questa tecnica.

Ad esempio, le tecniche per modulare fattori come la complessità, l’ambiguità e la novità degli esempi potrebbero aiutare ad affrontare i problemi di robustezza nei compiti a valle. La generazione dinamica di prompt per adattarsi all'evoluzione delle distribuzioni del mondo reale è un'altra sfida aperta.

Formazione su larga scala

Sebbene i LLM pre-formati codifichino già una conoscenza linguistica sostanziale, è probabile che le loro capacità di generazione di dati miglioreranno ulteriormente con una scala aggiuntiva. Modelli come GPT-4 addestrati su trilioni di token di testo Internet mostrano un forte apprendimento in poche riprese, ma non sono stati ottimizzati specificamente per la sintesi dei dati di addestramento.

Architetture e obiettivi su misura per avviare la generazione di dati auto-supervisionati su scala web potrebbero migliorare sostanzialmente la qualità e l’efficienza di questa metodologia. Un’altra direzione promettente è l’integrazione efficiente della conoscenza recuperata per integrare la conoscenza appresa.

Multitasking e multilingue

Come osservato nel documento, il miglioramento delle prestazioni sui linguaggi con risorse limitate rimane un problema. Piuttosto che pre-addestrare un singolo LLM di massa, un’alternativa è formare una flotta di modelli esperti più piccoli specializzati in particolari modalità di dati o domini linguistici.

Un simile approccio d’insieme potrebbe contribuire a migliorare la copertura di compiti e linguaggi rari condividendo le rappresentazioni apprese tra gli esperti. Anche l’apprendimento continuo per espandere nel tempo le competenze linguistiche e di compiti è una prospettiva entusiasmante.

In conclusione, questo articolo introduce un concetto innovativo di sintesi dei dati di addestramento provenienti dai LLM per creare incorporamenti di testo performanti. I loro risultati dimostrano l’efficacia di questa metodologia, superando i parametri di riferimento precedenti. Con il progresso dei LLM e delle tecniche di dati sintetici, sfruttare le loro conoscenze per formare gli incorporatori potrebbe diventare una direzione molto promettente.

Ho trascorso gli ultimi cinque anni immergendomi nell'affascinante mondo del Machine Learning e del Deep Learning. La mia passione e competenza mi hanno portato a contribuire a oltre 50 diversi progetti di ingegneria del software, con un focus particolare su AI/ML. La mia continua curiosità mi ha anche attirato verso l'elaborazione del linguaggio naturale, un campo che non vedo l'ora di esplorare ulteriormente.