Intelligenza Artificiale

Puoi creare modelli linguistici di grandi dimensioni come ChatGPT a metà costo?

Pubblicato il

12 mesi fa

11 Maggio 2023

Grandi modelli linguistici (LLM) come GPT-3 e ChatGPT hanno rivoluzionato l'intelligenza artificiale offrendo capacità di comprensione del linguaggio naturale e generazione di contenuti. Ma il loro sviluppo ha un prezzo pesante che limita l'accessibilità e ulteriori ricerche. I ricercatori stimano che l'addestramento di GPT-3 sia costato a OpenAI circa $5 milioni. Tuttavia, Microsoft ha riconosciuto il potenziale e ha investito $1 miliardi in 2019 e $10 miliardi nel 2023 nell'impresa GPT-3 e ChatGPT di OpenAI.

Gli LLM sono modelli di machine learning addestrati su estesi dati testuali per applicazioni NLP. Si basano sull'architettura del trasformatore e utilizzano meccanismi di attenzione per compiti di PNL come la risposta alle domande, la traduzione automatica, l'analisi del sentiment, ecc.

La domanda sorge spontanea: è possibile aumentare l'efficienza di questi modelli di grandi dimensioni riducendo contemporaneamente i costi computazionali e i tempi di addestramento?

Diversi approcci, come Reti Neurali Progressive, Morfismo di rete, parallelismo del modello intra-strato, eredità della conoscenza, ecc., sono stati sviluppati per ridurre il costo computazionale dell'addestramento delle reti neurali. Il romanzo LiGO (Linear Growth Operator) di cui parleremo sta fissando un nuovo punto di riferimento. Dimezza il costo computazionale della formazione dei LLM.

Prima di discutere questa tecnica, è essenziale esaminare i fattori che contribuiscono al prezzo elevato della realizzazione di LLM.

Costo della costruzione di modelli linguistici di grandi dimensioni

Tre spese principali per lo sviluppo di LLM sono le seguenti:

1. Risorse computazionali

La creazione di LLM richiede enormi risorse computazionali per l'addestramento su set di dati di grandi dimensioni. Devono elaborare miliardi di parametri e apprendere modelli complessi da enormi dati testuali.

Investimenti in hardware specializzato come unità di elaborazione grafica (GPU) e Tensor Processing Units (TPU) è necessario per la creazione e l'addestramento di LLM per ottenere prestazioni all'avanguardia.

Ad esempio, GPT-3 è stato addestrato su a supercomputer con 10000 GPU di livello aziendale (H100 e A100) e 285,000 core CPU.

2. Consumo energetico

Le intense risorse computazionali necessarie per la costruzione di LLM comportano un consumo energetico significativo. Ad esempio, l'addestramento ha richiesto 175 miliardi di parametri GPT-3 14.8 giorni utilizzando 10,000 GPU V100, equivalenti a 3.55 milioni di ore GPU. Un livello così elevato di consumo energetico ha anche effetti ambientali significativi.

3. Archiviazione e gestione dei dati

Gli LLM sono addestrati su grandi set di dati. Ad esempio, GPT-3 è stato addestrato su un vasto corpus di testi dati, tra cui Common Crawl, WebText2, Books1, Books2 e Wikipedia, tra le altre fonti. È necessario un investimento infrastrutturale significativo per raccogliere, curare e archiviare questi set di dati.

Inoltre, l'archiviazione cloud è necessaria per l'archiviazione dei dati e l'esperienza umana per la preelaborazione dei dati e il controllo della versione. Inoltre, garantire che la tua strategia per i dati sia conforme a normative come il GDPR aumenta anche i costi.

Tecnica LiGO: ridurre della metà il costo di costruzione di modelli linguistici di grandi dimensioni

LiGO (Linear Growth Operator) è una nuova tecnica sviluppata dai ricercatori del MIT per ridurre del 50% il costo computazionale dell'addestramento di LLM. Il metodo prevede l'inizializzazione dei pesi dei modelli più grandi da quelli dei modelli pre-addestrati più piccoli, consentendo un ridimensionamento efficiente delle reti neurali.

Immagine dal giornale: Imparare a coltivare modelli preaddestrati per un addestramento efficiente dei trasformatori

Yoon Kim, l'autore senior dell'articolo, afferma:

“È stato stimato che i modelli di addestramento della scala su cui si ipotizza che ChatGPT venga eseguito potrebbero richiedere milioni di dollari solo per una singola esecuzione di addestramento. Possiamo migliorare l'efficienza di questi metodi di formazione, in modo da poter ancora ottenere buoni modelli in meno tempo e con meno soldi? Proponiamo di farlo sfruttando modelli linguistici più piccoli che sono stati precedentemente addestrati.

Questo metodo mantiene i vantaggi in termini di prestazioni di modelli più grandi con costi computazionali e tempi di addestramento ridotti rispetto all'addestramento di un modello di grandi dimensioni da zero. LiGO utilizza un operatore di crescita lineare basato sui dati che combina operatori di profondità e larghezza per prestazioni ottimali.

Il documento ha utilizzato vari set di dati per condurre esperimenti basati su testo, incluso il corpus di Wikipedia in inglese per l'addestramento dei modelli BERT e RoBERTa e il set di dati C4 per l'addestramento di GPT2.

La sperimentazione della tecnica LiGO includeva la crescita da BERT-Small a BERT-Base, da BERT-Base a BERT-Large, da RoBERTaSmall a RoBERTa-Base, da GPT2-Base a GPT2-Medium e da CaiT-XS a CaiT-S.

I ricercatori hanno confrontato il loro approccio con diverse altre linee di base, tra cui l'allenamento da zero, l'allenamento progressivo, bert2BERT e KI.

La tecnica LiGO ha offerto un risparmio del 44.7% in FLOP (operazioni in virgola mobile al secondo) e un risparmio del 40.7% nel tempo di parete rispetto all'addestramento BERT-Base da zero riutilizzando il modello BERT-Small. L'operatore di crescita LiGO supera StackBERT, MSLT, bert2BERT e KI in termini di formazione efficiente.

Vantaggi dell'utilizzo di una tecnica di ottimizzazione dell'allenamento come LiGO

LiGO è un efficiente metodo di addestramento della rete neurale che presenta vari vantaggi elencati di seguito:

1. Allenamento più rapido

Come affermato in precedenza, un allenamento più veloce è il principale vantaggio della tecnica LiGO. Forma gli LLM in metà tempo, aumentando la produttività e riducendo i costi.

2. Efficienza in termini di risorse

LiGO è efficiente in termini di risorse poiché riduce al minimo il tempo di utilizzo e i FLOP, portando a un approccio più economico ed ecologico all'addestramento di modelli di trasformatori di grandi dimensioni.

3. Generalizzazione

La tecnica LiGO ha migliorato le prestazioni dei trasformatori sia del linguaggio che della visione, suggerendo che si tratta di una tecnica generalizzabile che può essere applicata a vari compiti.

La creazione di prodotti di intelligenza artificiale commerciale è solo un aspetto delle spese complessive associate ai sistemi di intelligenza artificiale. Un'altra componente significativa dei costi deriva dall'operatività quotidiana. Ad esempio, costa circa OpenAI $700,000 ogni giorno per rispondere alle domande utilizzando ChatGPT. Ci si aspetta che i ricercatori continuino a esplorare approcci che rendano gli LLM convenienti durante la formazione e più accessibili in fase di esecuzione.

Per ulteriori contenuti relativi all'intelligenza artificiale, visitare unire.ai.