Intelligenza artificiale
Nuovo modello di intelligenza artificiale funziona con una varietà più ampia di lingue umane

I ricercatori dell’Università di Waterloo hanno sviluppato un modello di intelligenza artificiale che consente ai computer di elaborare una varietà più ampia di lingue umane. Questo è un passo importante nel settore, considerando quante lingue sono spesso escluse nel processo di programmazione. Le lingue africane spesso non sono prese in considerazione dagli scienziati informatici, il che ha portato a limitazioni nelle capacità di elaborazione del linguaggio naturale (NLP) nel continente.
Il nuovo modello linguistico è stato sviluppato da un team di ricercatori della David R. Cheriton School of Computer Science dell’Università di Waterloo.
La ricerca è stata presentata al Multilingual Representation Learning Workshop alla Conferenza 2021 su Metodi empirici per l’elaborazione del linguaggio naturale.
Il modello svolge un ruolo chiave nell’aiutare i computer ad analizzare il testo nelle lingue africane per molti compiti utili e viene chiamato AfriBERTa. Utilizza tecniche di apprendimento profondo per ottenere risultati impressionanti per le lingue a bassa risorsa.
Lavorare con 11 lingue africane
AfriBERTa lavora con 11 lingue africane specifiche al momento, tra cui amarico, hausa e swahili, parlato da una combinazione di oltre 400 milioni di persone. Il modello ha dimostrato una qualità di output paragonabile ai migliori modelli esistenti e ciò è stato fatto imparando da solo un gigabyte di testo. Altri modelli simili richiedono spesso migliaia di volte più dati.
Kelechi Ogueji è uno studente di master in informatica a Waterloo.
“I modelli linguistici pre-addestrati hanno trasformato il modo in cui i computer elaborano e analizzano i dati testuali per compiti che vanno dalla traduzione automatica alla risposta alle domande”, ha detto Ogueji. “Purtroppo, le lingue africane hanno ricevuto poca attenzione dalla comunità di ricerca.”
“Una delle sfide è che le reti neurali sono incredibilmente testuali e intensive per i computer per costruire. E a differenza dell’inglese, che ha enormi quantità di testo disponibile, la maggior parte delle 7.000 lingue parlata nel mondo può essere caratterizzata come a bassa risorsa, nel senso che c’è una mancanza di dati disponibili per alimentare le reti neurali affamate di dati.”
Tecnica di pre-addestramento
La maggior parte di questi modelli si basa su una tecnica di pre-addestramento, che consiste nel presentare al modello del testo con alcune parole nascoste o mascherate. Il modello deve quindi indovinare le parole nascoste e continua a ripetere questo processo miliardi di volte. Alla fine, impara le associazioni statistiche tra le parole, che è simile alla conoscenza umana della lingua.
Jimmy Lin è il Cheriton Chair in Computer Science e consigliere di Ogueji.
“Essere in grado di pre-addestrare modelli che sono altrettanto precisi per determinati compiti a valle, ma utilizzando quantità di dati molto più piccole, ha molti vantaggi”, ha detto Lin. “Avere bisogno di meno dati per addestrare il modello linguistico significa che è richiesta meno computazione e, di conseguenza, minori emissioni di carbonio associate all’operazione di enormi centri di dati. I set di dati più piccoli rendono anche la cura dei dati più pratica, che è un approccio per ridurre i pregiudizi presenti nei modelli.”
“Questo lavoro compie un piccolo ma importante passo per portare le capacità di elaborazione del linguaggio naturale a oltre 1,3 miliardi di persone nel continente africano.”
La ricerca ha anche coinvolto Yuxin Zhu, che ha recentemente completato un diploma di laurea in informatica all’università.












