Artificiell intelligens
Ny AI-modell fungerar med en bredare variation av mÀnskliga sprÄk

Forskare vid University of Waterloo har utvecklat en AI-modell som möjliggör för datorer att bearbeta en bredare variation av mänskliga språk. Detta är ett viktigt steg framåt inom området med tanke på hur många språk ofta lämnas utanför programmeringsprocessen. Afrikanska språk fokuseras ofta inte på av datavetare, vilket har lett till att naturlig språkbehandling (NLP) kapaciteterna är begränsade på kontinenten.
Den nya språkmodellen utvecklades av ett team av forskare vid University of Waterloo’s David R. Cheriton School of Computer Science.
Den forskningen presenterades vid Multilingual Representation Learning Workshop vid 2021 Conference on Empirical Methods in Natural Language Processing.
Modellen spelar en nyckelroll i att hjälpa datorer att analysera text på afrikanska språk för många användbara uppgifter, och den kallas AfriBERTa. Den använder deep-learning-tekniker för att uppnå imponerande resultat för språk med begränsade resurser.
Arbetar med 11 afrikanska språk
AfriBERTa fungerar med 11 specifika afrikanska språk just nu, inklusive amhariska, hausa och swahili, som talas av en kombinerad 400+ miljoner människor. Modellen har visat en utdatakvalitet som är jämförbar med de bästa existerande modellerna, och den gjorde detta medan den endast lärde sig från en gigabyte text. Andra liknande modeller kräver ofta tusentals gånger mer data.
Kelechi Ogueji är en masterstudent i datavetenskap vid Waterloo.
“Förtränade språkmodeller har förändrat sättet datorer bearbetar och analyserar textdata för uppgifter som sträcker sig från maskinöversättning till frågesvar,” sa Ogueji. “Tyvärr har afrikanska språk fått liten uppmärksamhet från forskarsamhället.”
“En av utmaningarna är att neuronnät är förvirrande text- och datorintensiva att bygga. Och till skillnad från engelska, som har enorma mängder tillgänglig text, kan de flesta av de 7 000 eller så språk som talas världen över karakteriseras som språk med begränsade resurser, eftersom det finns en brist på data tillgänglig för att mata datorkrävande neuronnät.”
Förträningsmetod
De flesta av dessa modeller förlitar sig på en förträningsmetod, som innebär att forskaren presenterar modellen med text som har några av orden dolda eller maskerade. Modellen måste sedan gissa de dolda orden, och den upprepar denna process miljarder gånger. Den lär sig till slut de statistiska associationerna mellan orden, vilket är liknande den mänskliga kunskapen om språk.
Jimmy Lin är Cheriton Chair i datavetenskap och Oguejis handledare.
“Att kunna förträna modeller som är lika precisa för vissa nedströmsuppgifter, men som använder väsentligt mindre mängder data, har många fördelar,” sa Lin. “Att behöva mindre data för att träna språkmodellen innebär att mindre beräkning krävs och följaktligen lägre koldioxidutsläpp som är förknippade med att driva stora datacenter. Mindre datamängder gör också datakurering mer praktisk, vilket är ett tillvägagångssätt för att minska biasen i modellerna.”
“Detta arbete tar ett litet men viktigt steg för att bringa naturlig språkbehandling till mer än 1,3 miljarder människor på den afrikanska kontinenten.”
Forskningen involverade också Yuxin Zhu, som nyligen avslutade en kandidatexamen i datavetenskap vid universitetet.












