Kunstig intelligens

Ny AI-modell fungerer med en bredere variasjon av menneskelige språk

mm

Forskere ved University of Waterloo har utviklet en AI-modell som gjør det mulig for datamaskiner å behandle en bredere variasjon av menneskelige språk. Dette er et viktig skritt fremover i feltet, gitt hvor mange språk ofte blir latt tilbake i programmeringsprosessen. Afrikanske språk blir ofte ikke fokusert på av datavitenskapsmenn, noe som har ført til at evnen til naturlig språkbehandling (NLP) er begrenset på kontinentet. 

Den nye språkmodellen ble utviklet av et team av forskere ved University of Waterloo’s David R. Cheriton School of Computer Science.

Den forskningen ble presentert på Multilingual Representation Learning Workshop på 2021-konferansen om Empirical Methods in Natural Language Processing. 

Modellen spiller en nøkkelrolle i å hjelpe datamaskiner med å analysere tekst på afrikanske språk for mange nyttige oppgaver, og den kalles AfriBERTa. Den bruker dyptlæringsteknikker for å oppnå imponerende resultater for språk med begrensede ressurser.

Arbeider med 11 afrikanske språk

AfriBERTa arbeider med 11 spesifikke afrikanske språk for øyeblikket, inkludert amharisk, hausa og swahili, som snakkes av en kombinasjon av over 400 millioner mennesker. Modellen har demonstrert en utgangskvalitet som er sammenlignbar med de beste eksisterende modellene, og den gjorde det mens den bare lærte fra en gigabyte tekst. Andre lignende modeller krever ofte tusenvis av ganger mer data.

Kelechi Ogueji er en masterstudent i datavitenskap ved Waterloo.

“Forhånds trenede språkmodeller har endret måten datamaskiner prosesserer og analyserer tekstdata for oppgaver som varierer fra maskinoversettelse til spørsmålssvar,” sa Ogueji. “Desverre har afrikanske språk fått liten oppmerksomhet fra forskningssamfunnet.”

“En av utfordringene er at neurale nettverk er forvirrende tekst- og datamaskinintensive å bygge. Og i motsetning til engelsk, som har enorme mengder tilgjengelig tekst, kan de fleste av de 7 000 eller så språkene som snakkes verden over karakteriseres som lavresurs, i og med at det er en mangel på data tilgjengelig for å mate data-hungrende neurale nettverk.”

Forhåndstreningsmetode

De fleste av disse modellene avhenger av en forhåndstreningsmetode, som innebærer at forskeren presenterer modellen med tekst som har noen av ordene skjult eller maskert. Modellen må så gjette de skjulte ordene, og den fortsetter å gjenta denne prosessen milliarder av ganger. Den lærer til slutt de statistiske assosiasjonene mellom ordene, som er lignende til menneskets kunnskap om språk.

Jimmy Lin er Cheriton Chair i datavitenskap og Oguejis veileder. 

“Å kunne forhåndstrene modeller som er like nøyaktige for bestemte nedstrømsoppgaver, men som bruker mye mindre data, har mange fordeler,” sa Lin. “Å trenge mindre data for å trene språkmodellen betyr at mindre beregning er nødvendig og konsekvent lavere karbonutslipp forbundet med å drive massive datasentre. Mindre datasets gjør også datakurering mer praktisk, som er en tilnærming for å redusere fordommene som er til stede i modellene.”

“Dette arbeidet tar et lite, men viktig skritt mot å bringe naturlig språkbehandlingsevner til over 1,3 milliarder mennesker på det afrikanske kontinentet.”

Forskningen involverte også Yuxin Zhu, som nylig fullførte en bachelorgrad i datavitenskap ved universitetet. 

Alex McFarland er en AI-journalist og forfatter som utforsker de nyeste utviklingene innen kunstig intelligens. Han har samarbeidet med tallrike AI-startups og publikasjoner verden over.