mozzicone GPT-3: poco apprendimento per il modello linguistico? - Unite.AI
Seguici sui social

Intelligenza Artificiale

GPT-3: poco apprendimento per il modello linguistico?

mm

Pubblicato il

 on

Negli ultimi anni, il settore dell'intelligenza artificiale e del machine learning ha assistito a un aumento vertiginoso nello sviluppo e nell'applicazione dei sistemi NLP poiché i ricercatori sono stati in grado di implementare pratiche di PNL in modi altamente flessibili e indipendenti dalle attività per le attività di trasferimento a valle. 

Inizialmente, erano le rappresentazioni a livello singolo che utilizzavano vettori di parole e venivano poi inserite nell'architettura specifica per il compito. Successivamente, è stata l'architettura RNN a utilizzare rappresentazioni multistrato e stato contestuale per formare rappresentazioni migliori. E più recentemente, abbiamo i modelli del linguaggio di trasferimento o modelli ricorrenti pre-addestrati che hanno completamente eliminato la necessità di architetture specifiche per attività mettendo a punto queste reti. 

I modelli linguistici di trasferimento si sono rivelati un importante punto di svolta nel settore della PNL poiché hanno portato a enormi progressi su compiti impegnativi come rispondere a domande, comprendere la lettura o blocchi di testo, implicazioni testuali e molto altro. 

Tuttavia, nonostante i loro vantaggi, i modelli linguistici di trasferimento presentano una limitazione importante in quanto richiedono una messa a punto specifica dell’attività o un set di dati specifico dell’attività per ottenere le prestazioni desiderate su un’attività. Inoltre, i modelli linguistici di trasferimento richiedono anche agli sviluppatori di ottimizzare i set di dati su centinaia di migliaia di esempi specifici per un compito particolare. 

Inutile dire che rimuovere il requisito di set di dati specifici per attività e messa a punto specifica per attività sarà altamente auspicabile e vantaggioso per il settore della PNL per numerose ragioni. 

Problemi con i modelli linguistici di trasferimento preaddestrati esistenti o con i modelli ricorrenti

  • Limitare la praticità e l'applicabilità

Innanzitutto, il requisito di un set di dati di grandi dimensioni con dati etichettati per ogni attività limita l’applicabilità e la praticità dei modelli linguistici. I modelli linguistici trovano le loro applicazioni in un'ampia varietà di compiti che vanno dalla generazione di un racconto, alla correzione di errori grammaticali, alla generazione di esempi su un concetto. A volte è un compito impegnativo raccogliere un ampio set di dati supervisionati con dati etichettati, soprattutto quando il processo deve essere ripetuto per ogni singola attività. 

  • Sfruttare le correlazioni spurie nei dati di training

Limitazioni e ristrettezza della distribuzione dell'addestramento abbinate all'espressività del modello possono comportare una crescita fondamentale del potenziale per sfruttare correlazioni spurie nei dati di addestramento. Il potenziale per sfruttare i dati di formazione può causare problemi durante il paradigma di messa a punto e pre-formazione perché i modelli linguistici di trasferimento sono progettati in modo da assorbire una grande quantità di informazioni durante la pre-formazione. 

Inoltre, il lavoro sui modelli precedenti ha indicato che i modelli di grandi dimensioni non si traducono in una migliore fuori distribuzione ogni volta. Inoltre, è stato anche indicato che la generalizzazione ottenuta con tale paradigma può comportare prestazioni scadenti principalmente perché il modello è altamente specifico per i dati di addestramento e non può funzionare bene in situazioni che esulano dall'ambito dei dati di addestramento. 

  • Confronto con l'apprendimento umano

Infine, rispetto ai modelli linguistici di trasferimento, gli esseri umani non necessitano di un ampio set di dati di addestramento quando si tratta di apprendere la maggior parte dei compiti linguistici. Molto spesso, una breve istruzione nella lingua naturale di una persona o una piccola dimostrazione del compito linguistico sono sufficienti affinché un essere umano comprenda ed esegua un compito linguistico con un certo livello di competitività. 

La capacità di adattamento degli esseri umani presenta numerosi vantaggi pratici in quanto consente loro di passare da un set di abilità all'altro o di mescolarli insieme per esibirsi meglio durante un dialetto, qualcosa che va oltre le capacità degli attuali sistemi di PNL. 

Affrontare i problemi con Meta Learning e GPT-3

Una possibile soluzione alle sfide di cui sopra è l'uso del meta-apprendimento, un concetto del moderno ML che consente a un modello di sviluppare un insieme più ampio e ampio di competenze e capacità di riconoscere modelli durante l'addestramento, quindi utilizza queste abilità apprese durante l'interferenza per adattarsi rapidamente o riconoscere l'attività richiesta. 

Il Meta Learning viene implementato nell'architettura del modello linguistico tramite una tecnica chiamata "apprendimento contestuale" che utilizza l'input di testo di un modello linguistico pre-addestrato come specifica dell'attività. Nel processo, il modello si basa su un'istruzione in linguaggio naturale e potrebbe anche utilizzare alcune dimostrazioni, quindi ci si aspetta che il modello completi il ​​resto dell'attività prevedendo i passaggi successivi. 

L'unico problema importante con il Meta Learning è che, sebbene abbia mostrato un potenziale positivo, è ancora inferiore all'approccio di perfezionamento dell'architettura del linguaggio naturale e necessita di ulteriori miglioramenti per diventare un metodo pratico per superare i compiti linguistici. 

Oltre al metaapprendimento, un altro metodo che sta guadagnando popolarità è l’aumento della capacità di trasformazione dei modelli linguistici. Negli ultimi anni i modelli di trasferimento hanno visto un aumento sostanziale della loro capacità con il RNSS18 modello con 100 milioni di parametri, il DCLT18 modello con 300 milioni di parametri, il RWC19 modello con 1.5 miliardi di parametri, il SSP19 modello con 8 miliardi di parametri, il RSR19 modello con 11 miliardi di parametri e il TUR20 modello con 17 miliardi di parametri. 

L'aumento della capacità del modello o l'aumento dei parametri ha storicamente portato a miglioramenti nella sintesi del testo e c'è stata un'indicazione che anche la perdita di log, correlata alle attività a valle, segue una tendenza regolare al miglioramento con la scala. 

Questo ci porta al modello GPT-3 che ha oltre 175 miliardi di parametri e, quando fu lanciato, era il modello di linguaggio di trasferimento con la capacità più elevata. Parliamo ora del modello GPT-3. 

Un'introduzione al modello GPT-3

GPT-3 è un modello linguistico autoaggressivo con oltre 175 miliardi di parametri rilasciato da OpenAI nel 2020. GPT-3 è anche classificato come grande modello linguistico che, proprio come il suo predecessore, il modello GPT-2 è un modello di trasformatore di deep learning solo decoder che utilizza un'architettura basata sulla convoluzione per generare dati testuali. 

Il modello GPT-3 misura le proprie capacità di apprendimento del contesto e viene valutato su oltre due dozzine di set di dati PNL e molteplici compiti nuovi. Per ogni singola attività, il modello GPT-3 viene valutato in tre condizioni,

  • Pochi scatti di apprendimento o apprendimento nel contesto: Nell'apprendimento in poche riprese, il modello GPT-3 consente tutte le distribuzioni che possono adattarsi bene alla finestra di contesto del modello. 
  • Apprendimento in un colpo solo: Nell'apprendimento one shot, il modello consente una sola dimostrazione. 
  • Apprendimento del tiro zero: Nell'apprendimento zero-shot non ci sono dimostrazioni e c'è solo un'istruzione in linguaggio naturale che viene fornita al modello. 

In linea di massima, il Modello GPT-3 raggiunge le prestazioni desiderate nelle impostazioni zero-shot e one-shot e, nell'impostazione pochi-shot, supera nella maggior parte dei casi i modelli di trasferimento all'avanguardia. Inoltre, il modello GPT-3 funziona bene con impostazioni one-shot e zero-shot in compiti di linguaggio naturale progettati per testare il ragionamento al volo o che richiedono una rapida attenzione come usare parole nuove dopo una frase, o decodificare parole o eseguire operazioni aritmetiche. operazioni. D’altra parte, se utilizzato in un contesto di poche inquadrature, il modello GPT-3 genera articoli di notizie sintetiche che assomigliano alla scrittura umana quando vengono passati attraverso valutatori umani. 

Modello GPT-3: avvicinamento

Il modello GPT-3 utilizza un approccio di pre-formazione convenzionale che comprende modello, dati e formazione e assomiglia al processo di pre-formazione seguito dal modello di linguaggio di trasferimento RWC-19. Il modello GPT-3 aumenta le dimensioni del modello, la dimensione del set di dati, la diversità del set di dati e aumenta la durata del periodo di addestramento. 

Il modello utilizza anche un approccio di apprendimento in contesto che assomiglia ancora una volta all'approccio del modello RWC-19, ma modifica leggermente le cose esplorando sistematicamente diverse impostazioni per i modelli di apprendimento nel contesto del set di dati. 

Quindi, iniziamo esplorando queste impostazioni e valutiamo come si comporta il modello GTP-3 su diverse impostazioni. 

Ritocchi

La messa a punto del modello è stato l’approccio convenzionale nel trasferimento modelli linguisticie questo approccio prevede l'aggiornamento dei pesi di un modello pre-addestrato addestrando il modello su un set di dati supervisionato specifico per l'attività desiderata e durante il processo vengono utilizzati centinaia di migliaia di esempi etichettati. 

L’approccio di perfezionamento è vantaggioso perché restituisce ottime prestazioni su numerosi benchmark. D'altra parte, il limite principale dell'utilizzo dell'approccio di fine tuning è che richiede un nuovo e ampio set di dati per ogni singola attività, ha il potenziale per sfruttare caratteristiche spurie del set di dati di addestramento e può potenzialmente risultare in un confronto ingiusto con le prestazioni umane e scarsa generalizzazione per i casi fuori distribuzione. 

L'ambito attuale del modello GPT-3 non implementa l'approccio di perfezionamento a causa delle sue prestazioni indipendenti dal compito, sebbene il perfezionamento possa essere applicato al modello GPT-3 in futuro. 

Pochi colpi

Few Shot è un termine che si riferisce all'impostazione in cui al modello GPT-3 vengono fornite alcune dimostrazioni del compito durante l'interferenza come condizionamento, ma i pesi del modello non vengono aggiornati. Nelle poche impostazioni di ripresa, il set di dati in genere contiene un esempio con un contesto e un completamento desiderato (ad esempio, una frase francese e la sua traduzione inglese). L'impostazione di pochi scatti dà la modella K esempi di contesto e completamento, quindi fornisce al modello un contesto finale e si aspetta che il modello fornisca il completamento. 

Il vantaggio principale dell'utilizzo dell'impostazione Pochi scatti è che riduce significativamente la necessità di dati specifici dell'attività e riduce anche la possibilità di apprendere una distribuzione ristretta da un set di dati di grandi dimensioni ottimizzato in modo ristretto. D'altra parte, lo svantaggio principale dell'utilizzo dell'apprendimento con pochi colpi è che i risultati forniti nell'impostazione con pochi colpi non sono all'altezza e significativamente scarsi rispetto ad altri modelli all'avanguardia che sono ottimizzati. 

One Shot

Nell'impostazione a scatto singolo, al modello viene fornita solo una dimostrazione, e il resto è simile all'impostazione a pochi scatti. Il motivo per cui l'impostazione One Shot è rilevante nei modelli linguistici di trasferimento è perché tra tutte e tre le impostazioni, One Shot è quella che assomiglia meglio al modo in cui i compiti vengono comunicati agli esseri umani. È perché nella maggior parte dei compiti è normale fornire una dimostrazione del compito, altrimenti potrebbe essere difficile comprenderne il contesto. 

Colpo Zero

Nell'impostazione zero shot, non ci sono dimostrazioni e al modello vengono fornite istruzioni in linguaggio naturale che descrivono l'attività. Il metodo zero shot è quello che offre la massima comodità, è robusto ed evita anche correlazioni spurie, ma è anche il più impegnativo di tutte e tre le impostazioni. È perché in alcuni casi è difficile anche per noi umani capire il contesto di un'attività senza prima vedere una dimostrazione. 

Indipendentemente da ciò, per alcuni compiti, l’impostazione zero-shot è quella che assomiglia di più al modo in cui gli esseri umani eseguono compiti legati al linguaggio naturale. 

La figura sopra confronta l'impostazione Pochi scatti, Uno scatto e Zero scatti durante l'esecuzione di un compito in linguaggio naturale consistente nel prendere una frase inglese e tradurla in francese. 

GPT-3: Architettura del modello

Il modello GPT-3 utilizza la stessa architettura di quella utilizzata nel modello GPT-2 e include tecniche di pre-normalizzazione, inizializzazione modificata e tokenizzazione reversibile come quelle utilizzate sul modello GPT con l'eccezione dell'utilizzo di un modello alternativo strategia per modelli di attenzione sparsi localmente fasciati e strati densi alternati negli strati del trasformatore, simile a Sparse Transformer. 

Per studiare la dipendenza delle prestazioni del modello dalle dimensioni del modello, gli sviluppatori hanno addestrato 8 diverse dimensioni del modello che vanno su tre diversi ordini di grandezza da 125 milioni a oltre 175 miliardi di parametri, l'ultimo dei quali è chiamato modello GPT-3 . Il lavoro precedente relativo ai modelli LLM ha indicato che il ridimensionamento della perdita di convalida con una quantità sufficiente di dati di addestramento dovrebbe essere una legge di potenza approssimativa e uniforme in funzione delle dimensioni. Modelli di formazione di varie dimensioni consentono agli sviluppatori di testare l'ipotesi sia per le attività linguistiche a valle che per la perdita di convalida. 

La figura sopra confronta le dimensioni e l'architettura degli 8 diversi modelli utilizzati per lo sviluppo di GPT-3. Qui, n(params) definisce il numero totale di modelli addestrabili, n(layers) definisce il numero totale di strati nel modello, d(model) definisce il numero di unità in ogni strato del collo di bottiglia e d(head) definisce le dimensioni di ciascuna testa di attenzione. La finestra di contesto per ciascun modello è la stessa con 2048 token. 

Inoltre, per ridurre al minimo il trasferimento di dati tra i nodi, il modello è suddiviso tra le GPU lungo la profondità e la larghezza delle dimensioni. I parametri architettonici per ciascun modello sono stati scelti sulla base dell'efficienza computazionale e del bilanciamento del carico per massimizzare la precisione nel layout dei modelli sulle GPU. 

Set di dati di formazione

In genere, i modelli linguistici di grandi dimensioni utilizzano set di dati che si sono espansi in modo significativo con gli sviluppi recenti e culminano nel set di dati Common Crawl che consiste di oltre un trilione di parole diverse. La dimensione del set di dati è sufficientemente adeguata per addestrare il modello GPT-3 senza aggiornare più volte la stessa sequenza. Tuttavia, studi e analisi delle prestazioni indicano che le versioni leggermente filtrate o le versioni non filtrate del set di dati Common Crawl hanno una qualità bassa rispetto a set di dati più curati. 

Per affrontare il problema della qualità media del set di dati, gli sviluppatori hanno adottato 3 passaggi per migliorare la qualità del set di dati. 

  1. Gli sviluppatori hanno scaricato e filtrato una versione del set di dati Common Crawl in base a un intervallo simile a corpora di riferimento di alta qualità. 
  2. Gli sviluppatori hanno eseguito una duplicazione fuzzy a livello di documento attraverso il set di dati nel tentativo di preservare l'integrità del loro set di validazione come misura efficace del sovradattamento e anche per prevenire la ridondanza. 
  3. Gli sviluppatori hanno inoltre aggiunto corpora di riferimento di alta qualità ai dati di addestramento per ampliare il set di dati Common Crawl e aumentare ulteriormente la diversità del set di dati. 

La figura seguente mostra la proporzione finale o la combinazione dei set di dati utilizzati per l'addestramento del modello GPT-3. I dati di Common Crawl consistevano in oltre 45 TB di testo in chiaro prima del filtraggio, ridotti a 570 GB di dati dopo il filtraggio, un equivalente approssimativo di oltre 400 miliardi di token codificati a coppie di byte. Vale la pena notare che i set di dati nell'addestramento considerati di qualità superiore vengono campionati con maggiore frequenza invece di campionare il set di dati in proporzione alla loro dimensione. Di conseguenza, i set di dati come Books2 e Common Crawl vengono campionati meno di una volta durante l'addestramento, mentre gli altri set di dati vengono campionati più volte. Consente al modello di accettare una piccola quantità di overfitting in cambio di addestramento su dati di addestramento di qualità superiore. 

Una preoccupazione significativa con i modelli linguistici di grandi dimensioni che sono pre-addestrati su una grande quantità di dati Internet con la capacità di memorizzare e apprendere una grande quantità di contenuti è la potenziale contaminazione delle attività a valle attraverso la visualizzazione del loro sviluppo o dei set di test durante la fase pre-addestrata. processo di formazione. Per ridurre tale potenziale contaminazione, gli sviluppatori hanno cercato eventuali sovrapposizioni con i set di test e sviluppo dei benchmark studiati per GPT-3 e hanno tentato di rimuovere queste sovrapposizioni. 

L'immagine sopra mostra il calcolo totale utilizzato durante l'addestramento del modello GPT-3. Il modello utilizza le leggi di scala per i modelli del linguaggio neurale per addestrare modelli molto più grandi su un numero inferiore di token rispetto al normale. Di conseguenza, sia il modello GPT-3 che quello RoBERTa-Large, 10 volte più piccolo del modello GPT-3, hanno impiegato quasi 50 petaflop al giorno di calcolo durante il processo di pre-addestramento. 

Valutazione

Per l'apprendimento con pochi colpi, il modello valuta ogni esempio presente nel set di dati di valutazione disegnando K esempi in modo casuale dal set di dati di addestramento di quell'attività come condizionamento e lo delimita con 1 o 2 caratteri di fine riga a seconda dell'attività. Per Storycloze e LAMBADA, il modello trae esempi di condizionamento dal set di sviluppo e lo valuta sul set di test a causa dell'indisponibilità di un set di training supervisionato. Per Winograd esiste un solo set di dati e quindi i campioni di condizionamento vengono estratti direttamente da esso. 

K può essere qualsiasi valore compreso tra 0 e l'importo massimo consentito dalla finestra di contesto del modello che è next = 2048 per tutti i modelli e in genere si adatta a circa 10-100 esempi. Valori più grandi di K spesso danno risultati migliori, ma non sempre è per questo che quando il modello ha a disposizione un set di test e un set di sviluppo separato, il modello sperimenta su alcuni valori di K sul set di sviluppo e in base ai risultati , esegue il valore migliore sul set di test. 

Inoltre, per le attività che richiedono la selezione di un completamento corretto tra più opzioni, gli sviluppatori forniscono K esempi di correzione più completamento del contesto, e fanno seguito fornendo un solo esempio di contesto, e le attività vengono quindi confrontate sulla base della probabilità LM di ogni completamento. Per le attività che richiedono una classificazione binaria, i modelli spesso forniscono opzioni in modo più semantico e con nomi più significativi, quindi trattano l'attività come scelta multipla e talvolta inquadrano anche l'attività in modo simile a quanto fatto dal modello e dall'architettura RSR. 

Per le attività che richiedono il completamento in forma libera, il modello utilizza la ricerca del raggio con parametri identici a quelli utilizzati nel quadro RSR, con un raggio di lunghezza 4 e una penalità di 0.6. Al modello viene quindi assegnato un punteggio utilizzando il punteggio di somiglianza F1, la corrispondenza esatta o BLEU, a seconda dello standard del set di dati. 

Risultati

La figura sopra mostra le curve di addestramento per gli 8 modelli utilizzati nell'architettura del modello GPT-3, come descritto nelle sezioni precedenti. Similmente ai risultati del modello linguistico KMH, le prestazioni del modello GPT-3 seguono una legge corretta quando si utilizza il training computing in modo efficace. Si nota una leggera differenza rispetto alla legge solo quando il trend viene esteso di altri due ordini di grandezza. Potrebbe venire in mente che i miglioramenti nella perdita di entropia incrociata potrebbero essere il risultato della modellazione di dettagli spuri del corpus di addestramento. Tuttavia, i miglioramenti nella perdita di entropia incrociata portano a guadagni consistenti nella prestazione complessiva in un ampio spettro di una varietà di compiti di PNL. 

Prima di valutare gli 8 diversi modelli su un'ampia gamma di dati di addestramento, i set di dati sono raggruppati in 8 diverse categorie che rappresentano compiti simili. Queste categorie sono

  1. Valutazione su attività di modellazione linguistica tradizionale e attività che assomigliano alla modellazione linguistica come attività Cloze o attività di completamento di frasi/paragrafi. 
  2. Valutazione su compiti di risposta a domande “a libro chiuso”. 
  3. Valutare la capacità del modello di tradurre tra lingue (in particolare one-shot e many-shot)
  4. Valutazione delle prestazioni del modello su attività simili a Winograd Schema. 
  5. Valutazione di set di dati che implicano ragionamenti basati sul buon senso o risposte a domande. 
  6. Valutazione dei compiti di comprensione della lettura. 
  7. Valutazione sulla suite di benchmark SuperGLUE. 
  8. Esplorando NLI. 

Attività di modellazione, completamento e cloze del linguaggio

In questa sezione, le prestazioni del modello GPT-3 vengono valutate sui compiti di modellazione linguistica tradizionale così come sui compiti che richiedono la previsione di una singola parola di interesse, o il completamento di un paragrafo o una frase, o il completamento di un pezzo di testo. Discutiamoli in breve dettaglio. 

Modellazione del linguaggio

Il modello GPT-3 calcola la perplessità zero-shot sul set di dati PTB o Penn Tree Bank. Il modello omette le attività relative a Wikipedia perché è già inclusa nei dati di addestramento del modello e anche il benchmark da un miliardo di parole viene omesso perché causa una notevole quantità di attrito tra il set di dati e i dati di addestramento. Tuttavia, il set di dati PTB affronta questi problemi perché può essere antecedente alla moderna Internet. Il modello più grande nell'architettura del modello GPT-3 ottiene un nuovo SOTA sul set di dati PTB con un notevole margine di 15 punti e raggiunge una perplessità di 20.50. 

LAMBADA

Il set di dati LAMBADA viene utilizzato per testare la modellazione del modello sulle dipendenze a lungo termine in paragrafi o testi. Significa che al modello viene chiesto di prevedere l'ultima parola di una frase dopo aver letto il paragrafo per il contesto. Inoltre, il continuo ridimensionamento dei modelli linguistici produce rendimenti decrescenti sul benchmark. 

Il modello GPT-3 raggiunge una precisione del 76% su LAMBADA e ha un guadagno di oltre l'8% rispetto ai migliori modelli precedenti. Inoltre, il modello LAMBADA dimostra la flessibilità dell’apprendimento “low-shot” poiché affronta il problema in un modo che avviene classicamente con il set di dati. Il completamento di una frase in LAMBADA è solitamente l'ultima parola della frase, ma poiché un modello linguistico non può saperlo, assegna una probabilità non solo alla fine corretta, ma anche ad altre continuazioni del paragrafo. 

Inoltre, quando gli esempi forniti al modello GPT-3 vengono modificati in un certo modo, il modello restituisce una precisione superiore all'86%, con un incremento di oltre il 18% rispetto ai modelli precedenti. Inoltre, i risultati hanno anche indicato che le prestazioni del modello in un’impostazione a pochi scatti aumentano proporzionalmente all’aumento delle dimensioni del modello. Sebbene questa strategia riduca del 3% il modello più piccolo dell’architettura GPT-20, migliora del 3% la precisione del modello GPT-175 primario con 10 miliardi di parametri. 

Risposte alle domande sul libro chiuso

Il Closed Book Question Answering è un tentativo di misurare la capacità del modello GPT-3 di rispondere a domande basate su un'ampia conoscenza fattuale. Poiché tali domande hanno spesso un numero elevato di possibili query, il compito viene normalmente raggiunto utilizzando un sistema di recupero delle informazioni che consente al modello di trovare testo rilevante in combinazione con il modello che impara a generare una risposta a una risposta dato il testo recuperato, e la domanda. 

L'immagine sopra confronta il risultato per il modello GPT-3 rispetto a modelli diversi e in esecuzione su set di dati diversi. Sul set di dati TriviaQA, il modello raggiunge un punteggio di accuratezza del 64.3% nell'impostazione zero-shot, mentre raggiunge un punteggio di accuratezza del 68% e del 71.2% rispettivamente nelle impostazioni one-shot e pochi-shot. 

Si può evidentemente vedere che il modello GPT-3 in impostazione zero-shot supera il modello T5-11B ottimizzato di oltre il 14%. 

La figura sopra mostra che le prestazioni del modello GPT-3 crescono gradualmente con l'aumento delle dimensioni del modello. Le prestazioni suggeriscono che i modelli linguistici continuano ad apprendere dal set di dati man mano che la loro capacità aumenta. 

Considerazioni finali

Sarebbe corretto affermare che GPT-3 è stata una fase rivoluzionaria nel settore LLM poiché GPT-3 ha contribuito a superare i limiti di ciò che un modello linguistico potrebbe fare. Sono stati gli sviluppi realizzati e gli ostacoli superati da GPT-3 ad aprire la strada al modello di linguaggio di grandi dimensioni più avanzato e accurato fino ad oggi, il GPT-4. 

"Un ingegnere di professione, uno scrittore a memoria". Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedito a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.