Tankeledare

Transformer Impact: Har Machine Translation Blivit Lösad?

Published July 29, 2024

Updated April 4, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Google har nyligen tillkännagett lanseringen av 110 nya språk på Google Translate som en del av deras 1000 språk-initiativ som lanserades 2022. 2022, i början lade de till 24 språk. Med de senaste 110 till, är det nu 243 språk. Denna snabba expansion var möjlig tack vare Zero-Shot Machine Translation, en teknik där maskinlärningsmodeller lär sig att översätta till ett annat språk utan föregående exempel. Men i framtiden kommer vi att se tillsammans om denna utveckling kan vara den ultimata lösningen på utmaningen med maskinöversättning, och under tiden kan vi undersöka sätt att göra det på. Men först dess historia.

Hur Var Det Före?

Statistisk Maskinöversättning (SMT)

Detta var den ursprungliga metoden som Google Translate använde. Den byggde på statistiska modeller. De analyserade stora parallella korpusar, samlingar av alignerade meningsoversättningar, för att bestämma de mest sannolika översättningarna. Först översatte systemet texten till engelska som ett mellansteg innan den konverterades till målspråket, och det behövde korsreferera fraser med omfattande dataset från Förenta Nationerna och Europaparlamentets protokoll. Det skiljer sig från traditionella tillvägagångssätt som krävde sammanställning av uttömmande grammatiska regler. Och dess statistiska tillvägagångssätt lät det anpassa sig och lära av data utan att förlita sig på statiska språkliga ramverk som kunde bli helt onödiga.
Men det finns några nackdelar med detta tillvägagångssätt också. Först använde Google Translate frasbaserad översättning där systemet bröt ner meningar i fraser och översatte dem individuellt. Det var en förbättring jämfört med ord-för-ord-översättning men hade fortfarande begränsningar som klumpiga fraser och kontextfel. Det förstod helt enkelt inte nyanserna som vi gör. Dessutom bygger SMT tungt på att ha parallella korpusar, och något relativt ovanligt språk skulle vara svårt att översätta eftersom det inte har tillräckligt med parallell data.

Neural Maskinöversättning (NMT)

2016 bytte Google till Neural Maskinöversättning. Den använder djupinlärningsmodeller för att översätta hela meningar som en helhet och på en gång, vilket ger mer flytande och exakta översättningar. NMT fungerar på ett liknande sätt som att ha en sofistikerad flerspråkig assistent inom din dator. Med en sekvens-till-sekvens (seq2seq) arkitektur bearbetar NMT en mening i ett språk för att förstå dess betydelse. Sedan – genererar den en motsvarande mening i ett annat språk. Denna metod använder enorma dataset för att lära, till skillnad från Statistisk Maskinöversättning som bygger på statistiska modeller som analyserar stora parallella korpusar för att bestämma de mest sannolika översättningarna. Till skillnad från SMT, som fokuserade på frasbaserad översättning och behövde mycket manuell ansträngning för att utveckla och underhålla språkliga regler och ordböcker, låter NMTs förmåga att bearbeta hela sekvenser av ord den att fånga den nyanserade kontexten av språk mer effektivt. Så det har förbättrat översättningskvaliteten över olika språkpar, ofta nått nivåer av flyt och exakthet jämförbara med mänskliga översättare.
I själva verket använde traditionella NMT-modeller Recurrenta Neuronnät – RNN – som kärnarkitektur, eftersom de är utformade för att bearbeta sekventiell data genom att upprätthålla en dold tillstånd som utvecklas när varje nytt indata (ord eller token) bearbetas. Denna dolda tillstånd fungerar som en sorts minne som fångar kontexten av de föregående indata, vilket låter modellen lära sig beroenden över tid. Men RNN var dyra och svåra att parallellisera effektivt, vilket begränsade deras skalbarhet.

Introduktion av Transformers

2017 publicerade Google Research en artikel med titeln “Attention is All You Need,” och introducerade transformers för världen och markerade en viktig skiftning bort från RNN i neuronnätets arkitektur.
Transformers bygger enbart på uppmärksamhetsmekanismen, – självuppmärksamhet, som låter neuronnät för maskinöversättning fokusera selektivt på de viktigaste delarna av indatasekvenser. Till skillnad från RNN, som bearbetar ord i en sekvens inom meningar, utvärderar självuppmärksamhet varje token över hela texten, och bestämmer vilka andra som är avgörande för att förstå dess kontext. Denna samtidiga beräkning av alla ord låter transformers effektivt fånga både korta och långa beroenden utan att förlita sig på återkommande anslutningar eller konvolutionsfilter.
Så genom att eliminera återkommande, erbjuder transformers flera nyckelfördelar:

Parallelisering: Uppmärksamhetsmekanismer kan beräknas parallellt över olika segment av sekvensen, vilket accelererar träning på modern hårdvara som GPU:er.
TräningsEffektivitet: De kräver också betydligt mindre tränings tid jämfört med traditionella RNN-baserade eller CNN-baserade modeller, och levererar bättre prestanda i uppgifter som maskinöversättning.

Zero-Shot Maskinöversättning och PaLM 2

2022 släppte Google stöd för 24 nya språk med Zero-Shot Maskinöversättning, vilket markerade en betydande milstolpe i maskinöversättnings-teknologi. De tillkännagav också 1,000 Språk Initiativet, som syftar till att stödja världens 1,000 mest talade språk. De har nu lanserat 110 fler språk. Zero-Shot maskinöversättning möjliggör översättning utan parallell data mellan käll- och målspråk, och eliminerar behovet av att skapa träningsdata för varje språkpar — en process som tidigare var dyra och tidskrävande, och för vissa språkpar också omöjlig.
Denna utveckling blev möjlig tack vare transformer-modellens arkitektur och självuppmärksamhetsmekanismer. Transformer-modellens förmåga att lära sig kontextuella relationer över språk, i kombination med dess skalbarhet för att hantera flera språk samtidigt, möjliggjorde utvecklingen av mer effektiva och effektiva flerspråkiga översättningssystem. Men, zero-shot-modeller visar vanligtvis lägre kvalitet än de som tränats på parallell data.
Sedan, byggande på transformer-utvecklingen, introducerade Google PaLM 2 2023, som möjliggjorde lanseringen av 110 nya språk 2024. PaLM 2 förbättrade avsevärt Translates förmåga att lära sig nära besläktade språk som Awadhi och Marwadi (besläktade med hindi) och franska kreolspråk som Seychellerna och Mauritius kreol. Förbättringarna i PaLM 2, såsom beräkningsoptimal skalning, förbättrade dataset och raffinerad design — möjliggjorde mer effektivt språkinlärning och stödde Googles pågående ansträngningar för att förbättra och utöka språkstödet och accommodera olika språkliga nyanser.

Kan vi påstå att utmaningen med maskinöversättning har blivit fullständigt löst med transformers?

Utvecklingen vi pratar om tog 18 år från Googles antagande av SMT till de senaste 110 ytterligare språken med Zero-Shot Maskinöversättning. Detta representerar ett enormt språng som kan potentiellt minska behovet av omfattande parallell korpusinsamling — en historiskt och mycket arbetskrävande uppgift som branschen har bedrivit i över två decennier. Men att påstå att maskinöversättning är fullständigt löst vore förhastat, med tanke på både tekniska och etiska överväganden.
Nuvarande modeller kämpar fortfarande med kontext och sammanhang och gör subtila misstag som kan ändra meningen du avsåg för en text. Dessa problem är mycket närvarande i längre, mer komplexa meningar där underhåll av logisk flöde och förståelse för nyanser behövs för resultat. Dessutom förloras ofta kulturella nyanser och idiomatiska uttryck, vilket orsakar översättningar som kan vara grammatiskt korrekta men inte har den avsedda effekten eller låter onaturliga.
Data för förträning: PaLM 2 och liknande modeller är förtränade på ett mångsidigt flerspråkigt textkorpus, som överträffar sin föregångare PaLM. Denna förbättring utrustar PaLM 2 för att excellera i flerspråkiga uppgifter, och understryker den fortsatta viktigheten av traditionella dataset för att förbättra översättningskvaliteten.
Domänspecifika eller sällsynta språk: I specialiserade domäner som juridiska, medicinska eller tekniska fält, säkerställer parallella korpusar att modellerna möter specifika termer och språkliga nyanser. Avancerade modeller kan kämpa med domänspecifika jargonger eller utvecklande språktrender, vilket utgör utmaningar för Zero-Shot Maskinöversättning. Dessutom är lågresursspråk fortfarande dåligt översatta, eftersom de inte har den data de behöver för att träna precisa modeller
Benchmarking: Parallella korpusar förblir essentiella för att utvärdera och benchmarka översättningsmodellens prestanda, särskilt utmanande för språk som saknar tillräcklig parallell korpusdata. Automatiserade mått som BLEU, BLERT och METEOR har begränsningar när det gäller att bedöma nyanser i översättningskvalitet utöver grammatik. Men sedan är vi människor hindrade av våra fördomar. Dessutom finns det inte så många kvalificerade utvärderare där ute, och att hitta den perfekta tvåspråkiga utvärderaren för varje språkpar för att upptäcka subtila fel.
Resursintensitet: Den resursintensiva naturen av att träna och distribuera LLM:er förblir ett hinder, vilket begränsar tillgängligheten för vissa applikationer eller organisationer.
Kulturell bevarande. Den etiska dimensionen är djup. Som Isaac Caswell, en Google Translate-forskare, beskriver Zero-Shot Maskinöversättning: “Du kan tänka på det som en polyglott som känner till många språk. Men sedan, till och med, får den se text på 1,000 fler språk som inte är översatta. Du kan föreställa dig om du är någon stor polyglott, och sedan bara börjar läsa romaner på ett annat språk, du kan börja att pussla ihop vad det kunde betyda baserat på din kunskap om språk i allmänhet.” Men det är viktigt att överväga den långsiktiga påverkan på minoritetsspråk som saknar parallell korpus, vilket potentiellt kan påverka kulturell bevarande när tilliten skiftar bort från språken själva.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, är en framstående dataforskare med över ett decennium av erfarenhet, som omfattar både produktanalys och analys för tekniker i framkant. Hon ledde skapandet och analysen för Yasmina, den första fullt fungerande lokaliserade AI-baserade röstassistenten för Saudiarabien, och hanterade komplex datalokalisering och märkning för modern standardarabiska och saudiska dialekt. För närvarande leder Irina kvalitetsanalys på Yandex, och driver framsteg inom AI-teknologier.