Inteligencia artificial
Nuevo modelo de IA funciona con una variedad más amplia de lenguas humanas

Los investigadores de la Universidad de Waterloo han desarrollado un modelo de IA que permite a las computadoras procesar una variedad más amplia de lenguas humanas. Este es un paso importante hacia adelante en el campo, considerando la cantidad de lenguas que a menudo se dejan atrás en el proceso de programación. Las lenguas africanas a menudo no reciben atención por parte de los científicos informáticos, lo que ha llevado a que las capacidades de procesamiento de lenguaje natural (NLP) sean limitadas en el continente.
El nuevo modelo de lenguaje fue desarrollado por un equipo de investigadores de la Escuela de Ciencias de la Computación David R. Cheriton de la Universidad de Waterloo.
La investigación se presentó en el Taller de Aprendizaje de Representación Multilingüe en la Conferencia de 2021 sobre Métodos Empíricos en Procesamiento de Lenguaje Natural.
El modelo está desempeñando un papel clave en la ayuda a las computadoras para analizar textos en lenguas africanas para muchas tareas útiles, y se le llama AfriBERTa. Utiliza técnicas de aprendizaje profundo para lograr resultados impresionantes para lenguas con pocos recursos.
Trabajando con 11 lenguas africanas
AfriBERTa trabaja con 11 lenguas africanas específicas por ahora, incluyendo amhárico, hausa y swahili, que es hablado por una combinación de más de 400 millones de personas. El modelo ha demostrado una calidad de salida comparable a la de los mejores modelos existentes, y lo hizo mientras solo aprendía de un gigabyte de texto. Otros modelos similares a menudo requieren miles de veces más datos.
Kelechi Ogueji es un estudiante de maestría en ciencias de la computación en Waterloo.
“Los modelos de lenguaje preentrenados han transformado la forma en que las computadoras procesan y analizan datos textuales para tareas que van desde la traducción automática hasta la respuesta a preguntas”, dijo Ogueji. “Desafortunadamente, las lenguas africanas han recibido poca atención de la comunidad de investigación.”
“Uno de los desafíos es que las redes neuronales son increíblemente textuales y computacionalmente intensivas para construir. Y a diferencia del inglés, que tiene cantidades enormes de texto disponible, la mayoría de las 7.000 lenguas habladas en todo el mundo se pueden caracterizar como de pocos recursos, en el sentido de que hay una falta de datos disponibles para alimentar a las redes neuronales hambrientas de datos.”
Técnica de preentrenamiento
La mayoría de estos modelos dependen de una técnica de preentrenamiento, que implica que el investigador presenta al modelo con texto que tiene algunas de las palabras ocultas o enmascaradas. El modelo entonces debe adivinar las palabras ocultas, y continúa repitiendo este proceso miles de millones de veces. Eventualmente, aprende las asociaciones estadísticas entre palabras, lo que es similar al conocimiento humano del lenguaje.
Jimmy Lin es el presidente Cheriton en Ciencias de la Computación y asesor de Ogueji.
“Ser capaz de preentrenar modelos que son igual de precisos para ciertas tareas posteriores, pero utilizando cantidades mucho más pequeñas de datos tiene muchas ventajas”, dijo Lin. “Necesitar menos datos para entrenar el modelo de lenguaje significa que se requiere menos computación y, en consecuencia, menores emisiones de carbono asociadas con la operación de centros de datos masivos. Los conjuntos de datos más pequeños también hacen que la curación de datos sea más práctica, lo que es un enfoque para reducir los sesgos presentes en los modelos.”
“Este trabajo da un pequeño pero importante paso hacia llevar las capacidades de procesamiento de lenguaje natural a más de 1.300 millones de personas en el continente africano.”
La investigación también involucró a Yuxin Zhu, quien recientemente terminó una licenciatura en ciencias de la computación en la universidad.












