Intelligenza artificiale

Nuovo modello di intelligenza artificiale funziona con una varietà più ampia di lingue umane

Published November 12, 2021

Updated April 28, 2026

Alex McFarland

I ricercatori dell’Università di Waterloo hanno sviluppato un modello di intelligenza artificiale che consente ai computer di elaborare una varietà più ampia di lingue umane. Questo è un passo importante nel settore, considerando quante lingue sono spesso escluse nel processo di programmazione. Le lingue africane spesso non sono prese in considerazione dagli scienziati informatici, il che ha portato a limitazioni nelle capacità di elaborazione del linguaggio naturale (NLP) nel continente.

Il nuovo modello linguistico è stato sviluppato da un team di ricercatori della David R. Cheriton School of Computer Science dell’Università di Waterloo.

La ricerca è stata presentata al Multilingual Representation Learning Workshop alla Conferenza 2021 su Metodi empirici per l’elaborazione del linguaggio naturale.

Il modello svolge un ruolo chiave nell’aiutare i computer ad analizzare il testo nelle lingue africane per molti compiti utili e viene chiamato AfriBERTa. Utilizza tecniche di apprendimento profondo per ottenere risultati impressionanti per le lingue a bassa risorsa.

Lavorare con 11 lingue africane

AfriBERTa lavora con 11 lingue africane specifiche al momento, tra cui amarico, hausa e swahili, parlato da una combinazione di oltre 400 milioni di persone. Il modello ha dimostrato una qualità di output paragonabile ai migliori modelli esistenti e ciò è stato fatto imparando da solo un gigabyte di testo. Altri modelli simili richiedono spesso migliaia di volte più dati.

Kelechi Ogueji è uno studente di master in informatica a Waterloo.

“I modelli linguistici pre-addestrati hanno trasformato il modo in cui i computer elaborano e analizzano i dati testuali per compiti che vanno dalla traduzione automatica alla risposta alle domande”, ha detto Ogueji. “Purtroppo, le lingue africane hanno ricevuto poca attenzione dalla comunità di ricerca.”

“Una delle sfide è che le reti neurali sono incredibilmente testuali e intensive per i computer per costruire. E a differenza dell’inglese, che ha enormi quantità di testo disponibile, la maggior parte delle 7.000 lingue parlata nel mondo può essere caratterizzata come a bassa risorsa, nel senso che c’è una mancanza di dati disponibili per alimentare le reti neurali affamate di dati.”

Tecnica di pre-addestramento

La maggior parte di questi modelli si basa su una tecnica di pre-addestramento, che consiste nel presentare al modello del testo con alcune parole nascoste o mascherate. Il modello deve quindi indovinare le parole nascoste e continua a ripetere questo processo miliardi di volte. Alla fine, impara le associazioni statistiche tra le parole, che è simile alla conoscenza umana della lingua.

Jimmy Lin è il Cheriton Chair in Computer Science e consigliere di Ogueji.

“Essere in grado di pre-addestrare modelli che sono altrettanto precisi per determinati compiti a valle, ma utilizzando quantità di dati molto più piccole, ha molti vantaggi”, ha detto Lin. “Avere bisogno di meno dati per addestrare il modello linguistico significa che è richiesta meno computazione e, di conseguenza, minori emissioni di carbonio associate all’operazione di enormi centri di dati. I set di dati più piccoli rendono anche la cura dei dati più pratica, che è un approccio per ridurre i pregiudizi presenti nei modelli.”

“Questo lavoro compie un piccolo ma importante passo per portare le capacità di elaborazione del linguaggio naturale a oltre 1,3 miliardi di persone nel continente africano.”

La ricerca ha anche coinvolto Yuxin Zhu, che ha recentemente completato un diploma di laurea in informatica all’università.

Alex McFarland

Alex McFarland è un giornalista e scrittore di intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup di intelligenza artificiale e pubblicazioni in tutto il mondo.

Unite.AI

Nuovo modello di intelligenza artificiale funziona con una varietà più ampia di lingue umane

Lavorare con 11 lingue africane

Tecnica di pre-addestramento

You may like