Tankeledere
Generativ AI er ikke en dødsdom for truede språk
Ifølge UNESCO, kan opptil halvparten av språkene være utdødd innen 2100. Mange mennesker sier at generativ AI bidrar til denne prosessen.
Tilbakegangen i språklig mangfold begynte ikke med AI – eller internettet. Men AI er i en posisjon til å påskynde undergangen for urfolksspråk og språk med begrensede ressurser.
De fleste av verdens 7 000+ språk har ikke tilstrekkelige ressurser til å trene AI-modeller – og mange mangler en skriftlig form. Dette betyr at noen få store språk dominerer menneskehetens lager av potensiell AI-treningdata, mens de fleste står til å bli igjen i AI-revolusjonen – og kan forsvinne helt.
Den enkle grunnen er at de fleste tilgjengelige AI-treningdata er på engelsk. Engelsk er hovedmotoren for store språkmodeller (LLM), og mennesker som snakker mindre vanlige språk finner seg underrepresentert i AI-teknologi.
Vurdér disse statistikkene fra Verdens økonomiske forum:
- To tredeler av alle nettsider er på engelsk.
- Mye av dataene som GenAI lærer fra, er skrapet fra nettet.
- Færre enn 20 % av verdens befolkning snakker engelsk.
Ettersom AI blir mer integrert i våre daglige liv, bør vi alle tenke på språklig likhet. AI har utenforstående potensial til å løse problemer i stor skala, og dens løfte bør ikke begrenses til den engelsktalende verden. AI skaper bekvemmeligheter og verktøy som forbedrer menneskers personlige og profesjonelle liv for mennesker i rike, utviklede nasjoner.
Talere av språk med begrensede ressurser er vant til å finne en mangel på representasjon i teknologi – fra å ikke finne nettsider på sitt språk til å ikke ha sin dialekt gjenkjent av Siri. Mye av tekstene som er tilgjengelig for å trene AI på lavresurs-språk er av dårlig kvalitet (selv oversatt med tvilsom nøyaktighet) og smal i omfang.
Hvordan kan samfunnet sikre at språk med begrensede ressurser ikke blir igjen i AI-ligningen? Hvordan kan vi sikre at språk ikke er en barriere for AI-løftet?
I et forsøk på å fremme språklig inklusivitet, har noen store teknologiske spillere initiativer for å trene enorme flerspråklige språkmodeller (MLM). Microsoft Translate har for eksempel lovet å støtte “hvert språk, overalt”. Og Meta har et “Ingen språk blir igjen” -løfte. Disse er lovbud, men er de realistiske?
Å strebe mot én modell som håndterer hvert språk i verden favoriserer de privilegerte, fordi det finnes langt større mengder data fra verdens store språk. Når vi begynner å håndtere lavresurs-språk og språk med ikke-latinske skripter, blir trening av AI-modeller mer besværlig, tidskrevende – og mer dyrt. Tenk på det som en uforvollent “avgift” på underrepresenterte språk.
Fremgang i taleteknologi
AI-modeller er hovedsakelig trenet på tekst, som naturlig favoriserer språk med dypere lagre av tekstinnhold. Språklig mangfold ville bli bedre støttet med systemer som ikke avhenger av tekst. Menneskelig interaksjon var en gang helt basert på tale, og mange kulturer beholder denne muntlige fokuset. For å bedre betjene en global publikum, må AI-industrien fremme fra tekstdata til taledata.
Forskning gjør store fremskritt i taleteknologi, men det ligger fortsatt bak tekstbaserte teknologier. Forskning i talebehandling fremmer, men direkte tale-til-tale-teknologi er langt ifra moden. Virkeligheten er at industrien tendrer til å bevege seg forsiktig, og bare en gang en teknologi har fremmet til et visst nivå.
TransPerfects nylig lanserte GlobalLink Live-tolkeplattform bruker de mer modne formene for taleteknologi – automatisk talegjenkjenning (ASR) og tekst-til-tale (TTS) – igjen, fordi de direkte tale-til-tale-systemene ikke er modne nok på dette tidspunktet. Det være sagt, våre forskningsteam er i ferd med å forberede seg på dagen når fullstendig tale-til-tale-pipelines er klare for primetime.
Tale-til-tale oversettelsesmodeller tilbyr enorme løfter i bevaring av muntlige språk. I 2022 kunngjorde Meta den første AI-drevne tale-til-tale-oversettelsessystem for Hokkien, et primært muntlig språk som snakkes av omtrent 46 millioner mennesker i den kinesiske diasporaen. Det er en del av Metas Universal Speech Translator-prosjekt, som utvikler nye AI-modeller som det håper vil muliggjøre sanntids tale-til-tale-oversettelse på mange språk. Meta valgte å åpne kildekoden for sine Hokkien-oversettelsesmodeller, evalueringdatasett og forskningsrapporter, så andre kan gjenta og bygge på arbeidet.
Læring med mindre
Det faktum at vi som en global samfunn mangler ressurser rundt visse språk, er ikke en dødsdom for disse språkene. Dette er der flerspråklige modeller har en fordel, i og med at språkene lærer av hverandre. Alle språk følger mønster. På grunn av kunnskapsoverføring mellom språk, reduseres behovet for treningdata.
Anta at du har en modell som lærer 90 språk og du ønsker å legge til Inuit (en gruppe urfolksspråk i Nord-Amerika). På grunn av kunnskapsoverføring, trenger du mindre Inuit-data. Vi finner måter å lære med mindre. Mengden data som trengs for å finjustere motorer er lavere.
Jeg er håpefull om en fremtid med mer inklusiv AI. Jeg tror ikke vi er dømt til å se horder av språk forsvinne – eller at AI vil forbli domenet for den engelsktalende verden. Allerede nå ser vi mer bevissthet rundt spørsmålet om språklig likhet. Fra mer diversifisert datainnsamling til bygging av mer språkspesifikke modeller, gjør vi fremgang.
Vurdér Fon, et språk som snakkes av omtrent 4 millioner mennesker i Benin og naboland i Afrika. Ikke så lenge siden beskrev en populær AI-modell Fon som et fiktivt språk. En datavitenskapsmann ved navn Bonaventure Dosseau, hvis mor snakker Fon, var vant til denne type eksklusjon. Dosseau, som snakker fransk, vokste opp uten noen oversettelsesprogram for å kommunisere med moren sin. I dag kan han kommunisere med moren sin takket være en Fon-fransk oversetter som han møysommelig bygde. I dag finnes det også en ny Fon-Wikipedia.
I et forsøk på å bruke teknologi til å bevare språk, har den tyrkiske kunstneren Refik Anadol startet skapelsen av et åpen kilde-AI-verktøy for urfolk. På Verdens økonomiske toppmøte spurte han: “Hvordan på jorden kan vi skape en AI som ikke kjenner hele menneskeheten?”
Vi kan ikke, og vi vil ikke.












