Intelligenza Artificiale

Zephyr-7B: LLM iper-ottimizzato di HuggingFace costruito su Mistral 7B

Pubblicato il 23 Novembre 2023

Ayush Mittal Mittale

Introduzione

L'evoluzione dei modelli linguistici aperti di grandi dimensioni (LLM) ha avuto un impatto significativo sulla comunità di ricerca in ambito IA, in particolare nello sviluppo di chatbot e applicazioni simili. In seguito al rilascio di modelli come LLaMA, si è assistito a un'impennata nella ricerca su fine-tuning efficiente, gestione estesa dei prompt, generazione aumentata del recupero (RAG) e quantizzazione.

Il modello LLaMA, ad esempio, ha segnato una nuova era nella messa a punto e nella contestualizzazione rapida, aprendo la strada a modelli successivi come MPT di MosaicML, RedPajama-INCITE di Together AI, Falcon di TII e Llama 2 di Meta. Ciascuno di questi modelli apporta funzionalità uniche , migliorando la funzionalità complessiva e la portata dei LLM.

Mistral AI, startup parigina fondata da ex dipendenti di Google DeepMind e Meta, si è fatta un nome con la sua prima offerta: Mistral 7B.

Il vantaggio di Mistral 7B risiede nella sua efficienza, offrendo capacità simili o migliorate rispetto a modelli simili come Llama 2, ma con una minore richiesta di elaborazione.

Specificamente messo a punto per compiti didattici, Mistral 7B Instruct brilla su piattaforme come Hugging Face, dove supera altri modelli della stessa dimensione e compete a stretto contatto con quelli che hanno quasi il doppio dei suoi parametri.

Basandosi su questo, Hugging Face ha introdotto Zephyr 7B Alfa, dimostrando che un Mistral 7B messo a punto può effettivamente superare le capacità di modelli di chat significativamente più grandi e, in alcune attività, persino rivaleggiare con GPT-4. L'"Alpha" era solo l'inizio, come Zefiro 7B La beta seguì a breve.

Questo articolo esplorerà come Zephyr 7B sfrutti la potenza di modelli più grandi per affinare la sua capacità di rispondere e allinearsi alle istruzioni umane, un processo reso possibile grazie alla tecnica della distillazione della conoscenza. Questo metodo prevede l'addestramento di modelli più piccoli sui pattern complessi appresi da quelli più grandi, riducendo le esigenze di addestramento senza sacrificare le capacità di modellazione del linguaggio. Approfondiremo le specifiche dell'approccio di distillazione della conoscenza di Hugging Face.

Distillazione della conoscenza

Un'innovazione chiave nello sviluppo di modelli come Zephyr-7B Si tratta del distilled supervised fine-tuning (dSFT). Questo metodo prevede l'utilizzo dell'output di un modello "insegnante" più ampio e performante per addestrare un modello "studente" più piccolo, migliorandone l'accuratezza. Sebbene il distilled migliori i modelli aperti in vari compiti, persiste un divario nelle prestazioni rispetto ai modelli "insegnante".

La distillazione della conoscenza è un metodo di machine learning in cui un modello compatto, denominato "studente”, viene insegnato a replicare le prestazioni di un sistema più grande e complesso “insegnante" modello. Questa tecnica consente allo studente di eseguire compiti che prima andavano oltre le sue capacità trasferendo gli intricati schemi appresi dall'insegnante.

Distillazione della conoscenza | Modello insegnante-studente

Il modello dello studente si allena sulle probabilità o sulle caratteristiche dell'output generate dal modello dell'insegnante, concentrandosi sulla corrispondenza di questi output piuttosto che solo sulle previsioni finali. Ciò consente allo studente di apprendere i processi decisionali sfumati dell'insegnante, spesso con conseguente miglioramento delle prestazioni rispetto alla formazione basata solo su dati concreti.

Storicamente, la distillazione della conoscenza è stata utilizzata in modelli come le reti di distillazione originali di Hinton e, più recentemente, nell'elaborazione del linguaggio naturale con modelli come DistilBERT, che ha distillato il modello BERT in una versione più piccola e veloce, pur mantenendo la maggior parte delle capacità di comprensione del linguaggio originali. Un altro esempio è TinyBERT, che si spinge oltre nell'ottimizzazione delle dimensioni e della velocità per dispositivi mobili o edge.

Nel caso di Zephyr-7B, la distillazione della conoscenza viene utilizzata per impregnare un modello di parametri 7B più piccolo con le capacità delle sue controparti più grandi. In questo modo, Zephyr-7B raggiunge un equilibrio tra prestazioni ed efficienza, rendendolo adatto ad ambienti in cui le risorse computazionali sono limitate, senza sacrificare la qualità dell'interazione e della comprensione.

Nello sviluppo di Zephyr-7B, i ricercatori hanno affrontato la sfida di allineare un piccolo LLM aperto interamente attraverso la distillazione. Hanno introdotto un approccio chiamato ottimizzazione distillata delle preferenze dirette (dDPO), che utilizza il feedback dell’intelligenza artificiale da un insieme di modelli di insegnanti come dati sulle preferenze. Questo metodo, che non richiede alcuna annotazione umana, riduce significativamente il tempo e le risorse necessarie per l'addestramento del modello.

Costruzione di ZEPHYR-7B

Per convalidare il dDPO, i ricercatori hanno costruito ZEPHYR-7B, una versione allineata del Modello Mistral-7B. Il processo prevedeva tre fasi:

dSFT utilizzando il set di dati UltraChat:Distilled Supervised Fine-Tuning (dSFT) è un metodo avanzato per addestrare modelli linguistici di grandi dimensioni (LLM) sfruttando l'output di modelli "insegnante" più grandi e capaci. Inizia con un LLM grezzo addestrato a rispondere alle richieste dell'utente. A differenza del tradizionale fine tuning supervisionato (SFT) che utilizza un set di dati fisso, dSFT impiega un approccio dinamico in cui il modello stesso genera istruzioni e risposte. Questo metodo, noto come autoistruzione, prevede l'utilizzo del modello dell'insegnante sia per rispondere che per perfezionare le istruzioni basate sulle risposte. Il processo inizia con una serie di suggerimenti iniziali (x₀₁, x₀₂, …, x₀_J) che rappresentano diversi argomenti. Ogni prompt viene perfezionato in modo iterativo: per un dato prompt x₀, una risposta y₀ viene generata dal modello dell'insegnante, quindi una nuova istruzione x₁ viene campionata in base a x₀ e y₀. Il set di dati finale C = {(x₁, y₁), …, (x_J, y_J)} viene utilizzato per mettere a punto il modello.
Incorporamento dei dati di feedback AI da UltraFeedbackQuesti dati sono stati fondamentali per perfezionare le risposte del modello. In questa fase, il modello genera risposte a vari prompt (come descrivere come preparare i brownies al cioccolato) che vengono poi classificate da un modello più avanzato come GPT-4. La risposta con il punteggio più alto (yw) e una risposta con il punteggio più basso (yl) scelta casualmente formano un dataset di feedback D.
Applicazione dDPO:L'ultima fase, Distilled Direct Preference Optimization (dDPO), prevede il perfezionamento del modello dSFT massimizzando la probabilità di classificare le risposte preferite più in alto. Ciò si ottiene utilizzando una funzione di ricompensa rθ(x, y) nel modello di preferenza, che si basa sulla politica LLM ottimale π* e sulla politica originale πdSFT. L’obiettivo di ottimizzazione è formulato come πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT( yl|x)), che semplifica il processo di addestramento iniziando con la versione dSFT del modello e ripetendo ciascuna tripla AIF.

Il metodo utilizzato in Zephyr-7B rispecchia i processi utilizzati in InstructGPT.

Sorprendentemente, Zephyr-7B raggiunge prestazioni paragonabili a modelli molto più grandi con parametri 70B allineati con il feedback umano. Eccelle sia nei benchmark accademici che nelle capacità di conversazione, evidenziando l'efficacia dell'apprendimento delle preferenze nello sviluppo del modello. Per ulteriori approfondimenti, modelli, codice e istruzioni sono disponibili all'indirizzo Repository GitHub di Hugging Face.

Affrontare la sfida dell’allineamento degli intenti

Una notevole preoccupazione per gli LLM è stata il loro allineamento con l’intento umano. I modelli precedenti spesso non riuscivano a produrre risposte che corrispondessero alle preferenze dell’utente, portando a risposte imprecise o irrilevanti. Tuttavia, benchmark recenti come MT-Bench e AlpacaEval hanno fornito strumenti per quantificare e migliorare questo aspetto, evidenziando le prestazioni superiori dei modelli proprietari formati con feedback umano rispetto a quelli formati esclusivamente tramite distillazione.

Metodi di valutazione

La valutazione di Zephyr 7B ha comportato test rigorosi su benchmark che valutano le capacità di conversazione di un modello sia in contesti a turno singolo che multigiro:

MT-Panca: questo benchmark multi-turn richiede che un modello risponda a 160 domande che abbracciano otto domini. Ogni risposta è valutata da GPT-4, con il punteggio finale del modello che riflette la media su due cicli di domande.
AlpacaEval: In questo benchmark a turno singolo, il modello viene presentato con 805 domande su vari argomenti. L'attenzione qui è sull'utilità del modello, con GPT-4 che assegna un punteggio alle risposte per determinare un tasso di vincita comparativo.

Inoltre, Zephyr 7B è stato testato sulla Open LLM Leaderboard, che, pur non essendo una valutazione diretta delle capacità di conversazione, offre spunti sul ragionamento e sulla veridicità del modello dopo la messa a punto.

Zephyr 7B è stato confrontato con una varietà di modelli aperti e proprietari, compresi quelli con dimensioni e metodi di allineamento diversi. Ha stabilito nuovi parametri di riferimento per i modelli 7B su MT-Bench e AlpacaEval e ha mostrato prestazioni competitive rispetto a modelli più grandi, convalidando l'efficacia dell'ottimizzazione delle preferenze dirette (dDPO) nella formazione.

Le fasi di formazione SFT e DPO sono state configurate meticolosamente, abbracciando più epoche e ottimizzando i tassi di apprendimento e le dimensioni dei batch per prestazioni ottimali. Il modello finale di Zephyr è emerso non solo resistente all'overfitting, ma anche migliorato nell'affrontare compiti pratici e parametri di riferimento accademici.

Set di dati e risultati

Set di dati utilizzati

Nello sviluppo di Zephyr-7B, sono stati utilizzati due set di dati chiave per addestrare e perfezionare il modello, ciascuno affrontando diversi aspetti della generazione del dialogo:

Set di dati UltraChat

Fonte: Sviluppato da dialoghi generati da GPT-3.5-TURBO.
Contenuti: contiene 1.47 milioni di dialoghi a più turni su 30 argomenti e 20 tipi di materiale testuale.
Raffinatezza: Il set di dati è stato sottoposto a un'euristica truecasing per correggere i problemi grammaticali e sono stati applicati filtri per aumentare l'utilità delle risposte ed eliminare le frasi di prefazione inutili.

Set di dati UltraFeedback

Fonte: comprende i suggerimenti valutati da GPT-4, che valuta le risposte in base al rispetto delle istruzioni, all'onestà e alla disponibilità.
Contenuti: include 64,000 istruzioni con quattro risposte ciascuna, classificate da GPT-4.
Preferenze binarie: generato scegliendo la risposta con il punteggio medio più alto come "scelta" e una risposta casuale tra le rimanenti come "rifiutata" per migliorare la diversità e sfidare il processo di ottimizzazione delle preferenze dirette (DPO).

Entrambi i set di dati sono cruciali per addestrare Zephyr-7B a comprendere e generare un dialogo simile a quello umano che segua le istruzioni, sia onesto e utile. Questi set di dati sono stati resi disponibili su Hugging Face Hub, a cui puoi accedere Qui..

Prestazioni e risultati

Il grafico seguente illustra le prestazioni di Zephyr 7B in varie categorie di attività rispetto ad altri modelli come GPT-3.5-turbo, Claude 1, GPT-4 e Llama-2-70b-chat. Le categorie potrebbero includere Scrittura, Studi umanistici, Gioco di ruolo, Ragionamento, STEM, Estrazione, Codificazione e Matematica.

Dal grafico, possiamo dedurre in quali ambiti Zephyr 7B eccelle e quali potrebbero necessitare di ulteriori miglioramenti. Ad esempio, se la linea di Zephyr si estende più lontano sull'asse della Scrittura rispetto ad altri, ciò suggerisce che Zephyr è particolarmente abile nella generazione di contenuti scritti. Al contrario, se la linea è più vicina al centro sull'asse della Matematica, potrebbe indicare una relativa debolezza nella risoluzione di problemi matematici.

Il grafico radar aiuta a identificare i punti di forza e di debolezza di Zephyr 7B, fornendo una rappresentazione visiva della sua posizione rispetto a modelli più grandi come GPT-4 e modelli specializzati come Llama-2-70b-chat.

Grafico radar delle prestazioni del modello

Confronto di vari modelli linguistici su due benchmark: MT-Bench e AlpacaEval. I modelli vengono valutati in base alle loro dimensioni, al metodo di allineamento (come dSFT per la messa a punto supervisionata distillata o dDPO per l'ottimizzazione delle preferenze distillate dirette) e ai punteggi delle prestazioni. Zephyr si distingue con punteggi elevati in entrambi i benchmark, indicando la sua efficacia nel generare risposte allineate.

MT-Bench e AlpacaEval

Conclusione

In conclusione, lo sviluppo di Zephyr-7B dimostra che l'allineamento e la distillazione delle capacità conversazionali da un modello linguistico di grandi dimensioni (LLM) a un modello più piccolo possono essere ottenuti senza fare affidamento su metodi basati sul campionamento. Utilizzando l'ottimizzazione delle preferenze dirette (DPO) con feedback AI, Zephyr-7B sfrutta le solide basi di Mistral-7B per stabilire un nuovo punto di riferimento per i modelli di chat con parametri 7B, dimostrando la capacità di modelli open source più piccoli di comprendere e rispondere alle esigenze degli utenti. intenzione in modo efficace.

Tuttavia, questo studio non è privo di limiti. La dipendenza da GPT-4 come valutatore per i benchmark introduce una propensione verso i modelli che ne sono distillati, favorendo potenzialmente risposte rispetto a risposte accurate. Inoltre, la scalabilità di questo metodo su modelli più grandi, come LLAMA2-70B, e il suo impatto sui miglioramenti delle prestazioni rimangono aree per ulteriori ricerche. Queste limitazioni evidenziano la necessità di innovazione continua e di sviluppo di metodi di valutazione imparziali nella comunità dell’intelligenza artificiale.

Guardando oltre lo studio, è evidente che il potenziale dei modelli più piccoli di raggiungere prestazioni pari a quelle delle controparti più grandi può democratizzare l'IA, consentendone un utilizzo più accessibile ed efficiente in diverse applicazioni. Il successo di Zephyr-7B incoraggia un'ulteriore esplorazione di modelli open source, che possono accelerare i progressi nell'IA promuovendo la ricerca e lo sviluppo collaborativi.

Argomenti correlati:GPT LLM Maestrale 7B zeffiro Zephyr-7B

Ayush Mittal

Ho trascorso gli ultimi cinque anni immergendomi nell'affascinante mondo del Machine Learning e del Deep Learning. La mia passione e competenza mi hanno portato a contribuire a oltre 50 diversi progetti di ingegneria del software, con un focus particolare su AI/ML. La mia continua curiosità mi ha anche attirato verso l'elaborazione del linguaggio naturale, un campo che non vedo l'ora di esplorare ulteriormente.