Inteligência artificial
Novo Modelo de IA Funciona Com Maior Variedade de Línguas Humanas

Pesquisadores da Universidade de Waterloo desenvolveram um modelo de IA que permite que os computadores processem uma maior variedade de línguas humanas. Este é um passo importante no campo, considerando a quantidade de línguas que são frequentemente deixadas para trás no processo de programação. As línguas africanas muitas vezes não recebem atenção dos cientistas da computação, o que levou a capacidades limitadas de processamento de linguagem natural (NLP) no continente.
O novo modelo de linguagem foi desenvolvido por uma equipe de pesquisadores da Escola de Ciência da Computação David R. Cheriton da Universidade de Waterloo.
A pesquisa foi apresentada no Workshop de Aprendizado de Representação Multilíngue na Conferência de 2021 sobre Métodos Empíricos em Processamento de Linguagem Natural.
O modelo está desempenhando um papel fundamental em ajudar os computadores a analisar textos em línguas africanas para muitas tarefas úteis, e está sendo chamado de AfriBERTa. Ele utiliza técnicas de aprendizado profundo para alcançar resultados impressionantes para línguas de baixo recurso.
Trabalhando Com 11 Línguas Africanas
AfriBERTa trabalha com 11 línguas africanas específicas, incluindo amárico, haúsa e swahili, que é falada por uma combinação de 400+ milhões de pessoas. O modelo demonstrou qualidade de saída comparável aos melhores modelos existentes, e fez isso aprendendo com apenas um gigabyte de texto. Outros modelos semelhantes muitas vezes exigem milhares de vezes mais dados.
Kelechi Ogueji é um estudante de mestrado em ciência da computação em Waterloo.
“Modelos de linguagem pré-treinados transformaram a forma como os computadores processam e analisam dados textuais para tarefas que variam desde tradução automática até resposta a perguntas”, disse Ogueji. “Infelizmente, as línguas africanas receberam pouca atenção da comunidade de pesquisa.”
“Um dos desafios é que as redes neurais são incrivelmente textuais e intensivas em computação para construir. E, ao contrário do inglês, que tem quantidades enormes de texto disponível, a maioria das 7.000 línguas ou mais faladas em todo o mundo pode ser caracterizada como de baixo recurso, pois há uma falta de dados disponíveis para alimentar as redes neurais famintas de dados.”
Técnica de Pré-Treinamento
A maioria desses modelos depende de uma técnica de pré-treinamento, que envolve o pesquisador apresentar o modelo com texto que tem algumas das palavras ocultas ou mascaradas. O modelo então deve adivinhar as palavras ocultas, e continua a repetir esse processo bilhões de vezes. Ele eventualmente aprende as associações estatísticas entre as palavras, que é semelhante ao conhecimento humano da linguagem.
Jimmy Lin é o titular da Cátedra Cheriton em Ciência da Computação e orientador de Ogueji.
“Ser capaz de pré-treinar modelos que são tão precisos para certas tarefas downstream, mas usando quantidades muito menores de dados, tem muitas vantagens”, disse Lin. “Necessitar menos dados para treinar o modelo de linguagem significa que menos computação é necessária e, consequentemente, menores emissões de carbono associadas à operação de grandes centros de dados. Conjuntos de dados menores também tornam a curadoria de dados mais prática, o que é uma abordagem para reduzir os vieses presentes nos modelos.”
“Este trabalho dá um pequeno, mas importante passo para trazer capacidades de processamento de linguagem natural para mais de 1,3 bilhão de pessoas no continente africano.”
A pesquisa também envolveu Yuxin Zhu, que recentemente concluiu um diploma de graduação em ciência da computação na universidade.












