Connect with us

Lo stato dei LLM multilingui: andare oltre l’inglese

Intelligenza artificiale

Lo stato dei LLM multilingui: andare oltre l’inglese

mm
Multilingual LLMs Blog image

Secondo una ricerca di Microsoft, circa 88% delle lingue del mondo, parlato da 1,2 miliardi di persone, non hanno accesso ai Large Language Models (LLM). Ciò è dovuto al fatto che la maggior parte dei LLM sono centrati sull’inglese, ovvero sono costruiti principalmente con dati in inglese e per gli utenti di lingua inglese. ​Questo dominio dell’inglese prevale anche nello sviluppo dei LLM e ha portato a un divario digitale linguistico, escludendo potenzialmente la maggior parte delle persone dai benefici dei LLM. Per risolvere questo problema per i LLM, è necessario un LLM che possa essere addestrato in diverse lingue e svolgere compiti in diverse lingue. Entra in scena il Multilingual LLM!

Cosa sono i Multilingual LLM?

Un LLM multilingue può comprendere e generare testo in più lingue. Sono addestrati su set di dati che contengono diverse lingue e possono svolgere vari compiti in più di una lingua a partire da un prompt dell’utente.

Le applicazioni dei Multilingual LLM sono enormi, includono la traduzione di letteratura in dialetti locali, la comunicazione multilingue in tempo reale, la creazione di contenuti multilingue, ecc. Aiuteranno tutti ad accedere alle informazioni e a parlare facilmente tra loro, indipendentemente dalla loro lingua.

Inoltre, i multilingual LLM affrontano sfide come la mancanza di sfumature culturali e contesto, le limitazioni dei dati di addestramento e la possibile perdita di conoscenza durante la traduzione.

Come funzionano i Multilingual LLM?

La costruzione di un LLM multilingue richiede la preparazione accurata di un corpus di testo equilibrato in varie lingue e la selezione di un’architettura e di una tecnica di addestramento adatte, preferibilmente un modello Transformer, che è perfetto per l’apprendimento multilingue.

Steps to build a multilingual LLM

Fonte: Immagine dell’autore

Una tecnica è condividere gli embedding, che catturano il significato semantico delle parole attraverso le diverse lingue. Ciò consente al LLM di apprendere le somiglianze e le differenze di ogni lingua, consentendogli di comprendere meglio le diverse lingue.

Questa conoscenza consente anche al LLM di adattarsi a vari compiti linguistici, come la traduzione di lingue, la scrittura in diversi stili, ecc. Un’altra tecnica utilizzata è l’apprendimento trasferibile cross-linguistico, dove il modello è pre-addestrato su un grande corpus di dati multilingui prima di essere ottimizzato per compiti specifici.

Questo processo a due fasi garantisce che il modello abbia una solida base nella comprensione della lingua multilingue, rendendolo adattabile a varie applicazioni a valle.

Esempi di Multilingual Large Language Models

Multilingual LLM comparison chart

Fonte: Ruder.io

Sono emersi diversi esempi notevoli di LLM multilingui, ognuno dei quali risponde a esigenze linguistiche e contesti culturali specifici. Esploriamone alcuni:

1. BLOOM

BLOOM è un LLM multilingue open-access che dà priorità alle lingue diverse e all’accessibilità. Con 176 miliardi di parametri, BLOOM può gestire compiti in 46 lingue naturali e 13 lingue di programmazione, rendendolo uno dei più grandi e diversi LLM.

La natura open-source di BLOOM consente ai ricercatori, agli sviluppatori e alle comunità linguistiche di beneficiare delle sue capacità e contribuire al suo miglioramento.

2. YAYI 2

YAYI 2 è un LLM open-source progettato specificamente per le lingue asiatiche, considerando le complessità e le sfumature culturali della regione. È stato pre-addestrato da zero su un corpus multilingue di oltre 16 lingue asiatiche contenente 2,65 trilioni di token filtrati.

Ciò consente al modello di fornire risultati migliori, rispondendo alle esigenze specifiche delle lingue e culture in Asia.

3. PolyLM

PolyLM è un LLM open-source ‘poliglotta’ che si concentra sulle sfide delle lingue a bassa risorsa, offrendo capacità di adattamento. È stato addestrato su un set di dati di circa 640 miliardi di token ed è disponibile in due dimensioni di modello: 1,7B e 13B. PolyLM conosce oltre 16 lingue diverse.

Consente ai modelli addestrati su lingue ad alta risorsa di essere ottimizzati per lingue a bassa risorsa con dati limitati. Ciò rende i LLM più utili in diverse situazioni linguistiche e compiti.

4. XGLM

XGLM, con 7,5 miliardi di parametri, è un LLM multilingue addestrato su un corpus che copre un insieme diversificato di oltre 20 lingue utilizzando la tecnica di apprendimento a pochi esempi. Fa parte di una famiglia di LLM multilingui su larga scala addestrati su un enorme set di dati di testo e codice.

Si propone di coprire completamente molte lingue, ed è per questo che si concentra sull’inclusività e sulla diversità linguistica. XGLM dimostra il potenziale per costruire modelli che rispondano alle esigenze delle diverse comunità linguistiche.

5. mT5

Il mT5 (massivamente multilingue Text-to-Text Transfer Transformer) è stato sviluppato da Google AI. Addestrato sul dataset common crawl, mt5 è un LLM multilingue all’avanguardia che può gestire 101 lingue, dalle ampiamente parlate come lo spagnolo e il cinese alle lingue meno risorse come il basco e il quechua.

Eccelle anche in compiti multilingui come la traduzione, la sintesi, la risposta alle domande, ecc.

È possibile un LLM universale?

Il concetto di un LLM linguistico neutro, in grado di comprendere e generare lingua senza pregiudizi verso una particolare lingua, è affascinante.

Sebbene lo sviluppo di un vero LLM universale sia ancora lontano, i Multilingual LLM attuali hanno dimostrato un notevole successo. Una volta sviluppati completamente, potranno rispondere alle esigenze delle lingue sottorappresentate e delle comunità diverse.

Ad esempio, ricerche mostrano che la maggior parte dei Multilingual LLM può facilitare il trasferimento cross-linguistico zero-shot da una lingua ricca di risorse a una lingua povera di risorse senza dati di addestramento specifici per il compito.

Inoltre, modelli come YAYI e BLOOM, che si concentrano su lingue e comunità specifiche, hanno dimostrato il potenziale degli approcci centrati sulla lingua nel guidare il progresso e l’inclusività.

Per costruire un LLM universale o migliorare i Multilingual LLM attuali, individui e organizzazioni devono:

  • Utilizzare i parlanti nativi per il coinvolgimento e la cura dei set di dati linguistici.
  • Sostenere gli sforzi della comunità riguardanti i contributi open-source e il finanziamento alla ricerca e allo sviluppo multilingue.

Sfide dei Multilingual LLM

Sebbene il concetto di LLM multilingui universali sia promettente, essi affrontano anche diverse sfide che devono essere affrontate prima di poterne beneficiare:

1. Quantità dei dati

I modelli multilingui richiedono un vocabolario più ampio per rappresentare i token in molte lingue rispetto ai modelli monolingui, ma molte lingue mancano di set di dati su larga scala. Ciò rende difficile addestrare questi modelli in modo efficace.

2. Preoccupazioni sulla qualità dei dati

Garantire l’accuratezza e l’adeguatezza culturale delle uscite dei LLM multilingui attraverso le lingue è una preoccupazione significativa. I modelli devono essere addestrati e ottimizzati con attenzione meticolosa alle sfumature linguistiche e culturali per evitare pregiudizi e inesattezze.

3. Limitazioni delle risorse

L’addestramento e l’esecuzione dei modelli multilingui richiedono risorse computazionali sostanziali come potenti GPU (ad esempio, NVIDIA A100 GPU). Il costo elevato rappresenta una sfida, in particolare per le lingue a bassa risorsa e le comunità con accesso limitato all’infrastruttura computazionale.

4. Architettura del modello

Adattare le architetture dei modelli per accogliere strutture linguistiche diverse e complessità è una sfida in corso. I modelli devono essere in grado di gestire lingue con ordini di parole diversi, variazioni morfologiche e sistemi di scrittura diversi, mantenendo al tempo stesso prestazioni elevate ed efficienza.

5. Complessità di valutazione

Valutare le prestazioni dei LLM multilingui oltre i benchmark in inglese è fondamentale per misurare la loro effettiva efficacia. Ciò richiede di considerare le sfumature culturali, le peculiarità linguistiche e le esigenze specifiche del dominio.

I Multilingual LLM hanno il potenziale di abbattere le barriere linguistiche, potenziare le lingue sottorappresentate e facilitare la comunicazione efficace attraverso comunità diverse.

Non perdere le ultime notizie e analisi su AI e ML – visita unite.ai oggi.

Haziqa è uno scienziato dei dati con una vasta esperienza nella scrittura di contenuti tecnici per aziende di intelligenza artificiale e SaaS.