Intelligenza artificiale
Lo Stato dei Modelli di Linguaggio Multilingue: Andare Oltre l’Inglese

Secondo una ricerca di Microsoft, circa l’88% delle lingue del mondo, parlate da 1,2 miliardi di persone, non hanno accesso ai Modelli di Linguaggio Grande (LLM). Ciò è dovuto al fatto che la maggior parte degli LLM sono centrati sull’inglese, ovvero sono costruiti principalmente con dati in inglese e per utenti inglesi. Questo dominio dell’inglese si riscontra anche nello sviluppo degli LLM e ha portato a un divario digitale linguistico, escludendo potenzialmente la maggior parte delle persone dai benefici degli LLM. Per risolvere questo problema degli LLM, è necessario un LLM che possa essere addestrato in diverse lingue e svolgere compiti in diverse lingue. Entrano in scena i Modelli di Linguaggio Multilingue!
Che cosa sono i Modelli di Linguaggio Multilingue?
Un modello di linguaggio multilingue può comprendere e generare testo in più lingue. Sono addestrati su set di dati che contengono diverse lingue e possono svolgere vari compiti in più di una lingua a partire da un prompt dell’utente.
Le applicazioni dei modelli di linguaggio multilingue sono enormi, includono la traduzione di letteratura in dialetti locali, la comunicazione multilingue in tempo reale, la creazione di contenuti multilingue, ecc. Aiuterebbero tutti ad accedere alle informazioni e a comunicare facilmente, indipendentemente dalla lingua.
Inoltre, i modelli di linguaggio multilingue affrontano sfide come la mancanza di sfumature culturali e contestuali, le limitazioni dei dati di addestramento e la possibile perdita di conoscenza durante la traduzione.
Come funzionano i Modelli di Linguaggio Multilingue?
La costruzione di un modello di linguaggio multilingue richiede la preparazione accurata di un corpus di testo equilibrato in varie lingue e la selezione di un’architettura e di una tecnica di addestramento adatte, preferibilmente un modello Transformer, che è perfetto per l’apprendimento multilingue.

Fonte: Immagine dell’autore
Una tecnica consiste nel condividere gli embedding, che catturano il significato semantico delle parole attraverso diverse lingue. Ciò consente al modello di apprendere le somiglianze e le differenze di ogni lingua, abilitandolo a comprendere meglio le diverse lingue.
Questa conoscenza consente anche al modello di adattarsi a vari compiti linguistici, come la traduzione di lingue, la scrittura in diversi stili, ecc. Un’altra tecnica utilizzata è l’apprendimento trasferibile cross-linguistico, dove il modello viene pre-addestrato su un grande corpus di dati multilingue prima di essere ottimizzato per compiti specifici.
Questo processo a due fasi garantisce che il modello abbia una solida base nella comprensione della lingua multilingue, rendendolo adattabile a varie applicazioni a valle.
Esempi di Modelli di Linguaggio Multilingue

Fonte: Ruder.io
Sono emersi diversi esempi notevoli di modelli di linguaggio multilingue, ciascuno rivolto a specifiche esigenze linguistiche e contesti culturali. Esploriamone alcuni:
1. BLOOM
BLOOM è un modello di linguaggio multilingue open-access che priorizza lingue diverse e accessibilità. Con 176 miliardi di parametri, BLOOM può gestire compiti in 46 lingue naturali e 13 lingue di programmazione, rendendolo uno dei modelli di linguaggio multilingue più grandi e diversificati.
La natura open-source di BLOOM consente ai ricercatori, agli sviluppatori e alle comunità linguistiche di trarre vantaggio dalle sue capacità e contribuire al suo miglioramento.
2. YAYI 2
YAYI 2 è un modello di linguaggio open-source progettato specificamente per le lingue asiatiche, considerando le complessità e le sfumature culturali della regione. È stato pre-addestrato da zero su un corpus multilingue di oltre 16 lingue asiatiche contenenti 2,65 trilioni di token filtrati.
Ciò consente al modello di fornire risultati migliori, soddisfacendo le esigenze specifiche delle lingue e delle culture in Asia.
3. PolyLM
PolyLM è un modello di linguaggio ‘poliglotta’ open-source che si concentra sull’addressare le sfide delle lingue a bassa risorsa offrendo capacità di adattamento. È stato addestrato su un set di dati di circa 640 miliardi di token ed è disponibile in due dimensioni di modello: 1,7B e 13B. PolyLM conosce oltre 16 lingue diverse.
Consente ai modelli addestrati su lingue ad alta risorsa di essere ottimizzati per lingue a bassa risorsa con dati limitati. Ciò rende i modelli di linguaggio più utili in diverse situazioni linguistiche e compiti.
4. XGLM
XGLM, con 7,5 miliardi di parametri, è un modello di linguaggio multilingue addestrato su un corpus che copre un insieme diversificato di oltre 20 lingue utilizzando la tecnica di apprendimento a pochi esempi. Fa parte di una famiglia di modelli di linguaggio multilingue di grandi dimensioni addestrati su un enorme set di dati di testo e codice.
Si concentra sull’inclusività e sulla diversità linguistica, cercando di coprire molte lingue completamente. XGLM dimostra il potenziale per costruire modelli che soddisfino le esigenze delle diverse comunità linguistiche.
5. mT5
Il modello mT5 (massivamente multilingue Text-to-Text Transfer Transformer) è stato sviluppato da Google AI. Addestrato sul set di dati common crawl, mT5 è un modello di linguaggio multilingue all’avanguardia che può gestire 101 lingue, dalle lingue ampiamente parlate come lo spagnolo e il cinese a lingue a bassa risorsa come il basco e il quechua.
Eccelle anche in compiti multilingue come la traduzione, la sintesi, la risposta alle domande, ecc.
È possibile un Modello di Linguaggio Universale?
Il concetto di un modello di linguaggio neutro rispetto alla lingua, in grado di comprendere e generare linguaggio senza pregiudizi verso una particolare lingua, è affascinante.
Mentre lo sviluppo di un modello di linguaggio universale vero e proprio è ancora lontano, i modelli di linguaggio multilingue attuali hanno dimostrato un notevole successo. Una volta sviluppati completamente, potrebbero soddisfare le esigenze delle lingue sottorappresentate e delle comunità diverse.
Ad esempio, ricerche mostrano che la maggior parte dei modelli di linguaggio multilingue può facilitare il trasferimento cross-linguistico zero-shot da una lingua ricca di risorse a una lingua povera di risorse senza dati di addestramento specifici per il compito.
Inoltre, modelli come YAYI e BLOOM, che si concentrano su lingue e comunità specifiche, hanno dimostrato il potenziale degli approcci centrati sulla lingua nel guidare il progresso e l’inclusività.
Per costruire un modello di linguaggio universale o migliorare i modelli di linguaggio multilingue attuali, individui e organizzazioni devono:
- Raccogliere parlanti nativi per il coinvolgimento e la cura dei set di dati linguistici.
- Sostenere gli sforzi della comunità riguardanti contributi open-source e finanziamenti per la ricerca e lo sviluppo multilingue.
Sfide dei Modelli di Linguaggio Multilingue
Mentre il concetto di modelli di linguaggio multilingue universali è promettente, essi affrontano anche diverse sfide che devono essere affrontate prima di poterne trarre beneficio:
1. Quantità di Dati
I modelli multilingue richiedono un vocabolario più ampio per rappresentare token in molte lingue rispetto ai modelli monolingue, ma molte lingue mancano di set di dati su larga scala. Ciò rende difficile addestrare questi modelli in modo efficace.
2. Preoccupazioni sulla Qualità dei Dati
Garantire l’accuratezza e l’adeguatezza culturale delle uscite dei modelli di linguaggio multilingue attraverso le lingue è una preoccupazione significativa. I modelli devono essere addestrati e ottimizzati con attenzione meticolosa alle sfumature linguistiche e culturali per evitare pregiudizi e inesattezze.
3. Limitazioni delle Risorse
L’addestramento e l’esecuzione dei modelli multilingue richiedono risorse computazionali sostanziali come potenti GPU (ad esempio, NVIDIA A100 GPU). Il costo elevato rappresenta una sfida, in particolare per le lingue e le comunità a bassa risorsa con accesso limitato all’infrastruttura computazionale.
4. Architettura del Modello
Adattare le architetture dei modelli per accogliere strutture linguistiche diverse e complessità è una sfida in corso. I modelli devono essere in grado di gestire lingue con ordini di parole diversi, variazioni morfologiche e sistemi di scrittura diversi, mantenendo al tempo stesso prestazioni elevate ed efficienza.
5. Complessità di Valutazione
Valutare le prestazioni dei modelli di linguaggio multilingue oltre le metriche di riferimento in inglese è fondamentale per misurare la loro effettiva efficacia. Ciò richiede di considerare sfumature culturali, peculiarità linguistiche e requisiti specifici di dominio.
I modelli di linguaggio multilingue hanno il potenziale di superare le barriere linguistiche, di potenziare le lingue sottorappresentate e di facilitare la comunicazione efficace attraverso comunità diverse.
Non perdere le ultime notizie e analisi su AI e ML – visita unite.ai oggi.












