Intelligenza Artificiale
Lo stato dei LLM multilingue: andare oltre l'inglese

Secondo una ricerca Microsoft, circa L'88% delle lingue del mondo, parlato da 1.2 miliardi di persone, non ha accesso Large Language Models (LLM). Questo perché la maggior parte degli LLM sono incentrati sull'inglese, ovvero sono per lo più costruiti con dati inglesi e per persone di lingua inglese. Questa predominanza dell'inglese prevale anche nello sviluppo del LLM e ha comportato un divario linguistico digitale, escludendo potenzialmente la maggior parte delle persone dal vantaggi dei LLM. Per risolvere questo problema per i LLM, è necessario un LLM che possa essere formato in diverse lingue ed eseguire compiti in diverse lingue. Inserisci LLM multilingue!
Cosa sono i LLM multilingue?
Un LLM multilingue può comprendere e generare testo in più lingue. Vengono addestrati su set di dati che contengono lingue diverse e possono svolgere varie attività in più di una lingua su richiesta dell'utente.
Le applicazioni LLM multilingue sono enormi, includono la traduzione della letteratura nei dialetti locali, la comunicazione multilingue in tempo reale, la creazione di contenuti multilingue, ecc. Aiuterebbero tutti ad accedere alle informazioni e a parlare tra loro facilmente, indipendentemente dalla lingua.
Inoltre, i LLM multilingue affrontano sfide come la mancanza di sfumature e contesto culturali, le limitazioni dei dati di formazione e la potenziale perdita di conoscenza durante la traduzione.
Come funzionano i LLM multilingue?
Costruire un LLM multilingue implica preparare attentamente un corpus equilibrato di testi in varie lingue e selezionare un'architettura e una tecnica di formazione adeguate per addestrare il modello, preferibilmente un Modello del trasformatore, che è perfetto per l'apprendimento multilingue.
Fonte: immagine dell'autore
Una tecnica consiste nel condividere gli incorporamenti, che catturano il significato semantico delle parole in lingue diverse. Ciò fa sì che il LLM impari le somiglianze e le differenze di ciascuna lingua, consentendogli di comprendere meglio le diverse lingue.
Questa conoscenza consente inoltre al LLM di adattarsi a vari compiti linguistici, come tradurre lingue, scrivere in stili diversi, ecc. Un'altra tecnica utilizzata è apprendimento di trasferimento translinguistico, in cui il modello viene pre-addestrato su un ampio corpus di dati multilingue prima di essere perfezionato su compiti specifici.
Questo processo in due fasi garantisce che il modello abbia una solida base nella comprensione del linguaggio multilingue, rendendolo adattabile a varie applicazioni a valle.
Esempi di modelli linguistici multilinguistici di grandi dimensioni
Fonte: Ruder.io
Sono emersi numerosi esempi degni di nota di LLM multilingue, ciascuno dei quali soddisfa esigenze linguistiche e contesti culturali specifici. Esploriamone alcuni:
1. FIORITURA
FIORITURA è un LLM multilingue ad accesso aperto che dà priorità alle diverse lingue e all'accessibilità. Con 176 miliardi di parametri, BLOOM può gestire attività in 46 linguaggi naturali e 13 di programmazione, rendendolo uno dei LLM più grandi e diversificati.
La natura open source di BLOOM consente a ricercatori, sviluppatori e comunità linguistiche di beneficiare delle sue capacità e contribuire al suo miglioramento.
2. EVVIVA 2
YAYI 2 è un LLM open source progettato specificamente per le lingue asiatiche, considerando le complessità e le sfumature culturali della regione. È stato pre-addestrato da zero su un corpus multilingue di oltre 16 lingue asiatiche contenente 2.65 trilioni di token filtrati.
Ciò fa sì che il modello dia risultati migliori, soddisfacendo i requisiti specifici delle lingue e delle culture in Asia.
3.PolyLM
PolyLM è un LLM "poliglotta" open source che si concentra sull'affrontare le sfide delle lingue a scarse risorse offrendo capacità di adattamento. È stato addestrato su un set di dati di circa 640 miliardi di token ed è disponibile in due dimensioni del modello: 1.7B e 13B. PolyLM conosce oltre 16 lingue diverse.
Consente di ottimizzare i modelli addestrati su linguaggi con risorse elevate per linguaggi con risorse limitate con dati limitati. Questa flessibilità rende i LLM più utili in diverse situazioni e compiti linguistici.
4.XGLM
XGLM, che vanta 7.5 miliardi di parametri, è un LLM multilingue formato su un corpus che copre un insieme diversificato di oltre 20 lingue utilizzando la tecnica di apprendimento a poche riprese. Fa parte di una famiglia di LLM multilingue su larga scala formati su un enorme set di dati di testo e codice.
Mira a coprire completamente molte lingue, motivo per cui si concentra sull’inclusività e sulla diversità linguistica. XGLM dimostra il potenziale per la costruzione di modelli che soddisfano le esigenze di varie comunità linguistiche.
5.mT5
La sezione Currents, dedicata a opere audaci e innovative di artisti emergenti e affermati, include la prima statunitense di Mare’s Nest di Ben Rivers, descritto come “un enigmatico road movie ambientato in un mondo post-apocalittico governato da bambini”. Tra gli altri titoli spiccano Dracula di Radu Jude e With Hasan in Gaza di Kamal Aljafari. mT5 (trasformatore di trasferimento testo-testo multilingue) è stato sviluppato da Google AI. Addestrato sul set di dati di scansione comune, mt5 è un LLM multilingue all'avanguardia in grado di gestire 101 lingue, dallo spagnolo e cinese ampiamente parlati alle lingue con meno risorse come il basco e il quechua.
Eccelle anche in attività multilingue come traduzione, riepilogo, risposta a domande, ecc.
È possibile un LLM universale?
Il concetto di un LLM linguisticamente neutro, in grado di comprendere e generare linguaggio senza pregiudizi verso una lingua particolare, è intrigante.
Sebbene lo sviluppo di un LLM veramente universale sia ancora lontano, gli attuali LLM multilingue hanno dimostrato un successo significativo. Una volta sviluppati completamente, potranno soddisfare le esigenze delle lingue sottorappresentate e delle comunità diverse.
Per esempio, riparazioni mostra che la maggior parte dei LLM multilinguistici possono facilitare il trasferimento interlinguistico immediato da una lingua ricca di risorse a una lingua priva di risorse senza dati di formazione specifici per attività.
Inoltre, modelli come YAYI e BLOOM, che si concentrano su lingue e comunità specifiche, hanno dimostrato il potenziale degli approcci incentrati sulla lingua nel promuovere il progresso e l’inclusività.
Per costruire un LLM universale o migliorare gli attuali LLM multilingue, gli individui e le organizzazioni devono fare quanto segue:
- Crowdsourcing di madrelingua per il coinvolgimento della comunità e la cura dei set di dati linguistici.
- Sostenere gli sforzi della comunità relativi ai contributi open source e ai finanziamenti per la ricerca e gli sviluppi multilinguistici.
Le sfide dei LLM multilinguistici
Sebbene il concetto di LLM multilingue universale sia molto promettente, deve anche affrontare diverse sfide che devono essere affrontate prima di poterne beneficiare:
1. Quantità di dati
I modelli multilinguistici richiedono un vocabolario più ampio per rappresentare i token in molte lingue rispetto ai modelli monolinguistici, ma molte lingue mancano di set di dati su larga scala. Ciò rende difficile addestrare questi modelli in modo efficace.
2. Preoccupazioni sulla qualità dei dati
Garantire l'accuratezza e l'adeguatezza culturale dei risultati LLM multilingue tra le lingue è una preoccupazione significativa. I modelli devono essere addestrati e perfezionati con meticolosa attenzione alle sfumature linguistiche e culturali per evitare pregiudizi e imprecisioni.
3. Limitazioni delle risorse
L'addestramento e l'esecuzione di modelli multilingue richiedono notevoli risorse computazionali come potenti GPU (ad esempio, GPU NVIDIA A100). I costi elevati pongono sfide, in particolare per le lingue con poche risorse e per le comunità con accesso limitato alle infrastrutture computazionali.
4. Architettura del modello
Adattare le architetture dei modelli per accogliere diverse strutture e complessità linguistiche è una sfida continua. I modelli devono essere in grado di gestire lingue con diversi ordini di parole, variazioni morfologiche e sistemi di scrittura mantenendo prestazioni ed efficienza elevate.
5. Complessità della valutazione
Valutare le prestazioni dei LLM multilingue oltre i parametri di riferimento inglesi è fondamentale per misurare la loro reale efficacia. È necessario considerare le sfumature culturali, le peculiarità linguistiche e i requisiti specifici del dominio.
Gli LLM multilinguistici hanno il potenziale per rompere le barriere linguistiche, potenziare le lingue con risorse limitate e facilitare una comunicazione efficace tra diverse comunità.
Non perdere le ultime notizie e analisi su AI e ML: visita unire.ai oggi.