Tankeledere

Transformer Impact: Har maskinoversettelse blitt løst?

Published July 29, 2024

Updated April 4, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Google annonserte nylig lanseringen av 110 nye språk på Google Translate som en del av deres 1000 språk-initiativ lansert i 2022. I 2022, ved starten, la de til 24 språk. Med de siste 110 til, er det nå 243 språk. Denne raske utvidelsen var mulig takket være Zero-Shot Machine Translation, en teknologi der maskinlæringsmodeller lærer å oversette til et annet språk uten føringer. Men i fremtiden vil vi se sammen om denne fremgangen kan være den ultimate løsningen på utfordringen med maskinoversettelse, og i mellomtiden kan vi utforske måtene det kan skje. Men først er det historien.

Hvordan var det før?

Statistisk maskinoversettelse (SMT)

Dette var den opprinnelige metoden som Google Translate brukte. Den baserte seg på statistiske modeller. De analyserte store parallele korpus, samlinger av sammenstillinger av setningsoversettelser, for å bestemme de mest sannsynlige oversettelsene. Først oversatte systemet tekst til engelsk som et midlertidig steg før den konverterte den til målspråket, og den måtte krysseferere fraser med omfattende datasett fra FNs og Europaparlamentets transkripsjoner. Det er forskjellig fra tradisjonelle tilnærminger som nødvendigvis krever kompilering av uttømmelige grammatiske regler. Og dens statistiske tilnærming lot det tilpasse seg og lære fra data uten å avhenge av statiske lingvistiske rammer som kunne raskt bli fullstendig unødvendige.

Men det er noen ulemper med denne tilnærmingen også. Først brukte Google Translate frasebasert oversettelse hvor systemet delte setninger inn i fraser og oversatte dem individuelt. Dette var en forbedring overfor ord-for-ord-oversettelse, men hadde likevel begrensninger som uheldige fraseringer og kontekstfeil. Det forstod bare ikke fullstendig nyansene som vi gjør. Dessuten avhenger SMT sterkt av å ha parallele korpus, og ethvert relativt sjeldent språk ville være vanskelig å oversette fordi det ikke har nok parallelt data.

Neural maskinoversettelse (NMT)

I 2016, byttet Google til Neural Machine Translation. Den bruker dyplæringsmodeller til å oversette hele setninger som en helhet og på en gang, og gir mer flytende og nøyaktige oversettelser. NMT opererer på lignende måte som å ha en sofistikert flerspråklig assistent innenfor din datamaskin. Ved å bruke en sekvens-til-sekvens (seq2seq) arkitektur, prosesserer NMT en setning i ett språk for å forstå dens mening. Deretter – genererer en tilsvarende setning i et annet språk. Denne metoden bruker enorme datasett for læring, i motsetning til Statistisk maskinoversettelse som avhenger av statistiske modeller som analyserer store parallele korpus for å bestemme de mest sannsynlige oversettelsene. I motsetning til SMT, som fokuserte på frasebasert oversettelse og trengte mye manuell innsats for å utvikle og vedlikeholde lingvistiske regler og ordbøker, lar NMTs evne til å prosessere hele sekvenser av ord den til å fange nyansene i språkkonteksten mer effektivt. Så det har forbedret oversettelses kvalitet over ulike språkpar, ofte nårmer seg nivåer av flyt og nøyaktighet sammenlignbare med menneskelige oversettere.

I virkeligheten brukte tradisjonelle NMT-modeller Recurrent Neural Networks – RNNs – som kjernearkitektur, ettersom de er designet for å prosessere sekvensiell data ved å vedlikeholde en skjult tilstand som utvikler seg når hver ny innmatning (ord eller token) prosesseres. Denne skjulte tilstanden fungerer som en slags minne som fanger konteksten til de foregående innmatningene, og lar modellen lære avhengigheter over tid. Men RNNs var komputasjonskrevende og vanskelige å parallelisere effektivt, hvilket begrensede hvor skalerbare de er.

Introduksjon av Transformers

I 2017, publiserte Google Research en artikkel med tittelen “Attention is All You Need,” og introduserte transformers til verden og markerte en avgjørende skifte bort fra RNNs i neuralt nettverksarkitektur.

Transformers avhenger bare av oppmerksomhetsmekanismen, – selvoppmerksomhet, som lar neurale maskinoversettelsesmodeller fokusere selektivt på de mest kritiske delene av inndatasekvenser. I motsetning til RNNs, som prosesserer ord i en sekvens innenfor setninger, vurderer selvoppmerksomhet hver token over hele teksten, og bestemmer hvilke andre som er avgjørende for å forstå dens kontekst. Denne samtidige beregningen av alle ord lar transformers til å effektivt fange både kort- og langrekkeavhengigheter uten å avhenge av rekurrerende forbindelser eller konvolusjonsfilter.

Så ved å eliminere rekurransen, tilbyr transformers flere nøkkel fordeler:

Parallelisering: Oppmerksomhetsmekanismer kan beregne i parallell over ulike segmenter av sekvensen, hvilket akselererer trening på moderne maskinvare som GPUs.
Treningseffisiens: De krever også betydelig mindre treningstid sammenlignet med tradisjonelle RNN-baserte eller CNN-baserte modeller, og leverer bedre ytelse i oppgaver som maskinoversettelse.

Zero-Shot Machine Translation og PaLM 2

I 2022, lanserte Google støtte for 24 nye språk ved hjelp av Zero-Shot Machine Translation, og markerte en betydelig milepæl i maskinoversettelsesteknologi. De annonserte også 1000-språk-initiativet, med mål om å støtte verdens 1000 mest talte språk. De har nå lansert 110 flere språk. Zero-shot maskinoversettelse muliggjør oversettelse uten parallelt data mellom kilde- og målspråk, og eliminerer behovet for å lage treningsdata for hvert språkpar — en prosess som tidligere var kostbar og tidskrevende, og for noen språkpar også umulig.

Denne fremgangen ble mulig takket være arkitekturen og selvoppmerksomhetsmekanismene til transformers. Transformermodellens evne til å lære kontekstuelle relasjoner over språk, i kombinasjon med dens skalerbarhet til å håndtere flere språk samtidig, muliggjorde utviklingen av mer effektive og effisiente flerspråklige oversettelsessystemer. Likevel viser zero-shot-modeller generelt lavere kvalitet enn de som er trenet på parallelt data.

Deretter, bygget på fremgangen til transformers, introduserte Google PaLM 2 i 2023, som åpnet veien for lanseringen av 110 nye språk i 2024. PaLM 2 forbedret betydelig Translates evne til å lære nært beslektede språk som Awadhi og Marwadi (beslektet med hindi) og franske kreolske språk som Seychellois og Mauritian Creole. Forbedringene i PaLM 2, som compute-optimal skalerbarhet, forbedrede datasett og raffinert design — muliggjorde mer effektiv språklæring og støttet Googles pågående innsats for å gjøre språkstøtte bedre og større og tilpasse seg diverse lingvistiske nyanser.

Kan vi hevde at utfordringen med maskinoversettelse har blitt fullstendig løst med transformers?

Utviklingen vi snakker om, tok 18 år fra Googles tilpasning av SMT til de nylig 110 nye språkene ved hjelp av Zero-Shot Machine Translation. Dette representerer et enormt sprang som potensielt kan redusere behovet for omfattende parallelt korpusinnsamling — en historisk og meget arbeidskrevende oppgave industrien har fulgt i over to tiår. Men å hevde at maskinoversettelse er fullstendig løst, ville være forhastet, når man tar både tekniske og etiske overveielser i betraktning.

Gjeldende modeller sliter fortsatt med kontekst og kohesjon og gjør små feil som kan endre meningen du ønsket for en tekst. Disse problemene er meget til stede i lengre, mer komplekse setninger hvor det er nødvendig å vedlikeholde den logiske flyten og forstå nyansene for å få resultater. Dessuten går kulturelle nyanser og idiomatiske uttrykk ofte tapt eller mister mening, og fører til oversettelser som kan være grammatisk korrekte, men ikke har den ønskede effekten eller høres unaturlig ut.

Data for fortrening: PaLM 2 og lignende modeller er fortrent på et diversifisert flerspråklig tekstkorpus, som overgår dens forgjenger PaLM. Denne forbedringen utstyrer PaLM 2 til å utmerke seg i flerspråklige oppgaver, og understreker den fortsatt viktige rollen til tradisjonelle datasett for å forbedre oversettelseskvalitet.

Domene-spesifikke eller sjeldne språk: I spesialiserte domener som juridiske, medisinske eller tekniske felt, sikrer parallele korpus at modellene møter spesifikke terminologier og språklig nyanser. Avanserte modeller kan slite med domene-spesifikke jargon eller utviklingstrender i språk, og stiller utfordringer for Zero-Shot Machine Translation. Dessuten er lavresurs-språk fortsatt dårlig oversatt, fordi de ikke har nok data til å trene nøyaktige modeller

Benchmarking: Parallele korpus forblir essensielle for å evaluere og benchmarkere oversettelsesmodellens ytelse, særlig utfordrende for språk som mangler tilstrekkelig parallelt korpusdata. Automatiserte metrikker som BLEU, BLERT og METEOR har begrensninger når det gjelder å vurdere nyanser i oversettelseskvalitet utover grammatikk. Men så er vi mennesker begrensede av våre fordommer. Dessuten er det ikke mange kvalifiserte evaluatorene der ute, og å finne den perfekte tospråklige evaluator for hvert språkpar for å fange små feil.

Resursintensitet: Den resurskrevende naturen til å trene og deployere LLMs forblir en barriere, og begrenser tilgjengeligheten for noen applikasjoner eller organisasjoner.

Kulturell bevaring. Den etiske dimensjonen er dyptgående. Som Isaac Caswell, en Google Translate-forsker, beskriver Zero-Shot Machine Translation: “Du kan tenke på det som en polyglott som kjenner mange språk. Men så får den også se tekst på 1000 flere språk som ikke er oversatt. Du kan forestille deg hvis du er en stor polyglott, og så bare begynner å lese romaner på et annet språk, kan du begynne å sette sammen hva det kunne bety basert på din kunnskap om språk generelt.” Likevel er det viktig å vurdere den langtidsvirkningen på minoritetsspråk som mangler parallelt korpus, og potensielt påvirker kulturell bevaring når avhengigheten skifter bort fra språkene selv.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, er en fremtredende dataforsker med over et tiår med erfaring, som omfatter både produktanalyse og analyse for banebrytende teknologier. Hun ledet utviklingen og analysen av Yasmina, den første fullt funksjonelle lokale AI-baserte taleassistenten for Saudi-Arabia, og håndterte kompleks data-lokalisering og merking for moderne standardarabisk og saudiarabisk dialekt. For tiden leder Irina kvalitetsanalyse ved Yandex, og driver fremgang i AI-teknologier.