Kunstig intelligens
Tilstanden for flerspråklige LLMer: Beveger seg beyond English

Ifølge Microsoft-forskning, mangler rundt 88% av verdens språk, som snakkes av 1,2 milliarder mennesker, tilgang til Large Language Models (LLMs). Dette skyldes at de fleste LLMer er engelsk-sentriske, dvs. de er hovedsakelig bygget med engelsk data og for engelsktalende. Dette engelske dominans fører også i LLM-utvikling og har resultert i en digital språkkløft, som potensielt utelukker de fleste mennesker fra fordelene med LLMer. For å løse dette problemet for LLMer, trengs en LLM som kan trenes i forskjellige språk og utføre oppgaver i forskjellige språk. Velkommen til flerspråklige LLMer!
Hva er flerspråklige LLMer?
En flerspråklig LLM kan forstå og generere tekst i flere språk. De er trenet på datasamlinger som inneholder forskjellige språk og kan utføre forskjellige oppgaver i mer enn ett språk fra en brukers prompt.
Flerspråklige LLM-applikasjoner er enorme, de inkluderer oversettelse av litteratur til lokale dialekter, sanntids flerspråklig kommunikasjon, flerspråklig innholdsskapning osv. De vil hjelpe alle å få tilgang til informasjon og snakke med hverandre lett, uansett språk.
Og, flerspråklige LLMer adresserer utfordringer som mangelen på kulturelle nyanser og kontekst, begrensninger i treningdata og mulig tap av kunnskap under oversettelse.
Hvordan fungerer flerspråklige LLMer?
Bygging av en flerspråklig LLM innebærer å nøye forberede en balansert korpus av tekst i forskjellige språk og velge en passende arkitektur og treningsmetode for å trene modellen, helst en Transformer-modell, som er perfekt for flerspråklig læring.

Kilde: Bilde av forfatter
En teknikk er å dele innlegg, som fanger den semantiske betydningen av ord på tvers av forskjellige språk. Dette gjør at LLMen lærer likhetene og forskjellene i hvert språk, og muliggjør at den forstår de forskjellige språkene bedre.
Denne kunnskapen gir også LLMen mulighet til å tilpasse seg forskjellige lingvistiske oppgaver, som oversettelse av språk, skriving i forskjellige stiler osv. En annen teknikk som brukes er kryss-språklig overføringslæring, hvor modellen først trenes på en stor korpus av flerspråklig data før den finjusteres for bestemte oppgaver.
Denne to-trinnsprosessen sikrer at modellen har en sterk basis i flerspråklig språkforståelse, og gjør den tilpasselig til forskjellige nedstrømsapplikasjoner.
Eksempler på flerspråklige store språkmodeller

Kilde: Ruder.io
Flere bemerkelsesverdige eksempler på flerspråklige LLMer har dukket opp, hver med sine egne språklige behov og kulturelle kontekster. La oss utforske noen av dem:
1. BLOOM
BLOOM er en åpen tilgang flerspråklig LLM som prioriterer mangfoldige språk og tilgjengelighet. Med 176 milliarder parametre kan BLOOM håndtere oppgaver i 46 naturlige og 13 programmeringsspråk, og er en av de største og mest diverse LLMene.
BLOOMs åpne natur gjør at forskere, utviklere og språksamfunn kan dra nytte av dens evner og bidra til dens forbedring.
2. YAYI 2
YAYI 2 er en åpen kildekode LLM som er spesifikt designet for asiatiske språk, og tar hensyn til regionens kompleksitet og kulturelle nyanser. Den ble forhåndstrenet fra scratch på en flerspråklig korpus av over 16 asiatiske språk som inneholder 2,65 billioner filtrerte token.
Dette gjør at modellen gir bedre resultater, og møter de spesifikke kravene til språk og kulturer i Asia.
3. PolyLM
PolyLM er en åpen kildekode ‘polyglott’ LLM som fokuserer på å løse utfordringene med lav-resurs-språk ved å tilby tilpasningsmuligheter. Den ble trenet på en datasamling på om lag 640 milliarder token og er tilgjengelig i to modellstørrelser: 1,7B og 13B. PolyLM kjenner over 16 forskjellige språk.
Den muliggjør at modeller trenet på høy-resurs-språk kan finjusteres for lav-resurs-språk med begrensede data. Denne fleksibiliteten gjør LLMer mer nyttige i forskjellige språksituasjoner og oppgaver.
4. XGLM
XGLM, som har 7,5 milliarder parametre, er en flerspråklig LLM som er trenet på en korpus som dekker en divers samling av over 20 språk ved å bruke few-shot-læringsteknikken. Den er en del av en familie av store flerspråklige LLMer som er trenet på en massiv datasamling av tekst og kode.
Den har som mål å dekke mange språk fullstendig, og fokuserer derfor på inklusivitet og språklig mangfold. XGLM demonstrerer potensialet for å bygge modeller som møter behovene til forskjellige språksamfunn.
5. mT5
mT5 (massivt flerspråklig Tekst-til-Tekst-Overførings-Transformer) ble utviklet av Google AI. Trenet på common crawl-datasamlingen, er mT5 en stat-of-the-art flerspråklig LLM som kan håndtere 101 språk, fra bredt snakket spansk og kinesisk til mindre ressurs-rike språk som baskisk og quechua.
Den excellerer også i flerspråklige oppgaver som oversettelse, sammenfatting, spørsmål-svar osv.
Er en universell LLM mulig?
Konseptet om en språk-nøytral LLM, som kan forstå og generere språk uten bias mot noen bestemt språk, er intriigende.
Selv om utvikling av en virkelig universell LLM fortsatt er langt borte, har nåværende flerspråklige LLMer demonstrert betydelig suksess. Når de er fullt utviklet, kan de møte behovene til under-representerte språk og diverse samfunn.
For eksempel viser forskning at de fleste flerspråklige LLMer kan fasilitere null-skudd kryss-språklig overføring fra et ressurs-rikt språk til et ressurs-fattig språk uten oppgave-spesifikt treningsdata.
Og, modeller som YAYI og BLOOM, som fokuserer på bestemte språk og samfunn, har demonstrert potensialet for språk-sentriske tilnærminger i å drive fremgang og inklusivitet.
For å bygge en universell LLM eller forbedre nåværende flerspråklige LLMer, må enkeltpersoner og organisasjoner gjøre følgende:
- Crowdsourcings av native talere for samfunnsengasjement og kurering av språkdatasamlinger.
- Støtte til samfunnsinnsats når det gjelder åpne kildekode-bidrag og finansiering til flerspråklig forskning og utvikling.
Utfordringer for flerspråklige LLMer
Selv om konseptet om universelle flerspråklige LLMer har stor potensial, møter de også flere utfordringer som må løses før vi kan dra nytte av dem:
1. Datakvantitet
Flerspråklige modeller krever en større vokabular for å representere token i mange språk enn monolingske modeller, men mange språk mangler store datasamlinger. Dette gjør det vanskelig å trene disse modellene effektivt.
2. Datakvalitetsproblemer
Sikring av nøyaktigheten og kulturelle passende utgangene fra flerspråklige LLMer på tvers av språk er en betydelig bekymring. Modeller må trenes og finjusteres med omhyggelig oppmerksomhet på lingvistiske og kulturelle nyanser for å unngå bias og uakkurathet.
3. Resursbegrensninger
Trenings- og kjøring av flerspråklige modeller krever betydelige beregningsressurser som kraftige GPUer (f.eks. NVIDIA A100 GPU). Den høye kostnaden stiller utfordringer, spesielt for lav-resurs-språk og samfunn med begrensede tilgang til beregningsinfrastruktur.
4. Modellarkitektur
Tilpasning av modellarkitekturer for å møte diverse lingvistiske strukturer og kompleksiteter er en pågående utfordring. Modeller må kunne håndtere språk med forskjellige ordrekkefølger, morfologiske variasjoner og skriftsystemer samtidig som de opprettholder høy ytelse og effektivitet.
5. Evalueringsskomplikasjoner
Evaluering av flerspråklige LLMers ytelse beyond engelske benchmark er kritisk for å måle deres virkelige effektivitet. Det krever å vurdere kulturelle nyanser, lingvistiske særegenheter og domene-spesifikke krav.
Flerspråklige LLMer har potensialet til å bryte språkbarrierer, styrke under-resurs-språk og fasilitere effektiv kommunikasjon på tvers av diverse samfunn.
Ikke gå glipp av de siste nyhetene og analysene i AI og ML – besøk unite.ai i dag.










