Thought leaders

Transformer Impact: Is Machine Translation Opgelost?

Published July 29, 2024

Updated April 4, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Google heeft onlangs de release van 110 nieuwe talen op Google Translate aangekondigd als onderdeel van hun 1000 talen-initiatief dat in 2022 is gelanceerd. In 2022, aan het begin voegden ze 24 talen toe. Met de laatste 110 extra talen zijn het nu 243 talen. Deze snelle uitbreiding was mogelijk dankzij de Zero-Shot Machine Translation, een technologie waarbij machine learning-modellen leren om te vertalen naar een andere taal zonder voorbeelden. Maar in de toekomst zullen we samen zien of deze vooruitgang de ultieme oplossing kan zijn voor de uitdaging van machinevertaling, en in de tussentijd kunnen we de manieren onderzoeken waarop dit kan gebeuren. Maar eerst het verhaal.

Hoe Was Het Eerder?

Statistische Machine Vertaling (SMT)

Dit was de oorspronkelijke methode die Google Translate gebruikte. Het vertrouwde op statistische modellen. Ze analyseerden grote parallelle corpora, verzamelingen van gealigneerde zinvertalingen, om de meest waarschijnlijke vertalingen te bepalen. Eerst vertaalde het systeem de tekst naar het Engels als tussenstap voordat het deze omzette in de doeltaal, en het moest zinnen kruisverwijzen met uitgebreide datasets van Verenigde Naties- en Europese Parlementstranscripten. Het is anders dan traditionele benaderingen die het samenstellen van uitgebreide grammaticale regels vereisen. En de statistische benadering liet het toe om aan te passen en te leren van gegevens zonder te vertrouwen op statische linguïstische kaders die snel volledig overbodig konden worden.
Maar er zijn ook enkele nadelen aan deze benadering. Ten eerste gebruikte Google Translate frase-gebaseerde vertaling waarbij het systeem zinnen brak in frases en deze individueel vertaalde. Dit was een verbetering ten opzichte van woord-voor-woord-vertaling, maar had nog steeds beperkingen zoals onhandige zinsconstructies en contextfouten. Het begreep gewoon niet volledig de nuances zoals wij dat doen. Bovendien is SMT sterk afhankelijk van het hebben van parallelle corpora, en elke relatief zeldzame taal zou moeilijk te vertalen zijn omdat deze niet genoeg parallelle gegevens heeft.

Neurale Machine Vertaling (NMT)

In 2016 maakte Google de overstap naar Neurale Machine Vertaling. Het gebruikt diepe leermodellen om hele zinnen in één keer te vertalen, waardoor vloeiendere en nauwkeurigere vertalingen ontstaan. NMT werkt op een manier die vergelijkbaar is met het hebben van een geavanceerde meertalige assistent in uw computer. Met behulp van een sequentie-naar-sequentie (seq2seq)-architectuur verwerkt NMT een zin in één taal om de betekenis te begrijpen. Vervolgens genereert het een overeenkomstige zin in een andere taal. Deze methode gebruikt enorme datasets voor het leren, in tegenstelling tot Statistische Machine Vertaling, die vertrouwt op statistische modellen die grote parallelle corpora analyseren om de meest waarschijnlijke vertalingen te bepalen. In tegenstelling tot SMT, die zich richtte op frase-gebaseerde vertaling en veel handmatige inspanning vereiste om linguïstische regels en woordenboeken te ontwikkelen en te onderhouden, laat de kracht van NMT om hele woordsequenties te verwerken toe om de nuance van de taalcontext effectiever te vangen. Dus het heeft de vertaalkwaliteit over verschillende taalparen verbeterd, vaak tot niveaus van vloeiendheid en nauwkeurigheid die vergelijkbaar zijn met die van menselijke vertalers.
In feite gebruikten traditionele NMT-modellen Recurrent Neural Networks – RNN’s – als de kernarchitectuur, aangezien ze zijn ontworpen om sequentiële gegevens te verwerken door een verborgen toestand te behouden die evolueert wanneer elke nieuwe invoer (woord of token) wordt verwerkt. Deze verborgen toestand fungeert als een soort geheugen dat de context van de voorgaande invoer vastlegt, waardoor het model tijdsafhankelijke afhankelijkheden kan leren. Maar RNN’s waren computationeel duur en moeilijk effectief te paralleliseren, wat beperkte hoe schaalbaar ze zijn.

Introductie van Transformers

In 2017 publiceerde Google Research het artikel getiteld “Attention is All You Need,” waarmee transformers aan de wereld werden voorgesteld en een cruciale verschuiving markeerden van RNN’s in neurale netwerkarchitectuur.
Transformers vertrouwen alleen op de aandachtmethode, – zelfaandacht, die neurale machinevertalingmodellen in staat stelt om selectief te focussen op de meest kritieke delen van invoersequenties. In tegenstelling tot RNN’s, die woorden in een sequentie binnen zinnen verwerken, evalueert zelfaandacht elke token over de hele tekst, waarbij wordt bepaald welke andere tokens cruciaal zijn voor het begrijpen van de context. Deze gelijktijdige berekening van alle woorden stelt transformers in staat om zowel korte als langeafstandsafhankelijkheden effectief te vangen zonder te vertrouwen op terugkerende verbindingen of convolutionele filters.
Dus door terugkerendheid te elimineren, bieden transformers verschillende belangrijke voordelen:

Parallelleerbaarheid: Aandachtmecanismen kunnen parallel worden berekend over verschillende segmenten van de sequentie, waardoor de training op moderne hardware zoals GPU’s wordt versneld.
TrainingsEfficiëntie: Ze vereisen ook aanzienlijk minder trainings tijd in vergelijking met traditionele RNN-gebaseerde of CNN-gebaseerde modellen, waardoor betere prestaties in taken zoals machinevertaling worden geleverd.

Zero-Shot Machine Vertaling en PaLM 2

In 2022 lanceerde Google ondersteuning voor 24 nieuwe talen met Zero-Shot Machine Vertaling, een belangrijke mijlpaal in machinevertalingstechnologie. Ze kondigden ook het 1.000 Talen-initiatief aan, gericht op ondersteuning van de 1.000 meest gesproken talen ter wereld. Ze hebben nu 110 extra talen uitgerold. Zero-shot machinevertaling maakt vertaling mogelijk zonder parallelle gegevens tussen brontaal en doeltaal, waardoor de noodzaak om trainingsgegevens voor elke taalcombinatie te creëren wordt geëlimineerd — een proces dat eerder kostbaar en tijdrovend was, en voor sommige taalcombinaties zelfs onmogelijk.
Deze vooruitgang werd mogelijk gemaakt door de architectuur en zelfaandachtmecanismen van transformers. De transformermodelcapaciteit om contextuele relaties over talen heen te leren, in combinatie met de schaalbaarheid om meerdere talen tegelijk te verwerken, maakte de ontwikkeling van efficiëntere en effectievere meertalige translatiesystemen mogelijk. Echter, zero-shotmodellen vertonen over het algemeen een lagere kwaliteit dan die getraind op parallelle gegevens.
Vervolgens, op basis van de vooruitgang van transformers, introduceerde Google PaLM 2 in 2023, wat de weg vrijmaakte voor de release van 110 nieuwe talen in 2024. PaLM 2 verbeterde aanzienlijk de mogelijkheid van Translate om nauw verwante talen zoals Awadhi en Marwadi (verwant aan Hindi) en Franse creoolse talen zoals Seychellen en Mauritiaans Creools te leren. De verbeteringen in PaLM 2, zoals compute-optimale schaling, verbeterde datasets en verfijnde ontwerp — maakten efficiënter taal leren mogelijk en ondersteunden Google’s voortdurende inspanningen om taalondersteuning beter en groter te maken en diverse linguïstische nuances te accommoderen.

Kunnen we beweren dat de uitdaging van machinevertaling volledig is aangepakt met transformers?

De evolutie waarover we spreken, duurde 18 jaar vanaf Google’s adoptie van SMT tot de recente 110 extra talen met Zero-Shot Machine Vertaling. Dit vertegenwoordigt een enorme sprong die potentieel de noodzaak voor uitgebreide parallelle corpuscollectie — een historisch en zeer arbeidsintensieve taak die de industrie meer dan twee decennia heeft nagestreefd — kan verminderen. Maar het zou prematuur zijn om te beweren dat machinevertaling volledig is opgelost, gezien zowel technische als ethische overwegingen.
Huidige modellen worstelen nog steeds met context en coherentie en maken subtiele fouten die de betekenis van een tekst kunnen veranderen. Deze problemen zijn zeer aanwezig in langere, complexere zinnen waarbij het behoud van de logische stroom en het begrijpen van nuances nodig is voor resultaten. Bovendien gaan culturele nuances en idiomatische uitdrukkingen vaak verloren of verliezen ze hun betekenis, waardoor vertalingen ontstaan die grammaticaal correct zijn maar niet het beoogde effect hebben of onnatuurlijk klinken.
Gegevens voor pre-training: PaLM 2 en soortgelijke modellen zijn pre-getraind op een diverse meertalige tekstcorpus, dat de voorganger PaLM overtreft. Deze verbetering stelt PaLM 2 in staat om uit te blinken in meertalige taken, waarmee de voortdurende belangrijkheid van traditionele datasets voor het verbeteren van de vertaalingskwaliteit wordt benadrukt.
Domeinspecifieke of zeldzame talen: In gespecialiseerde domeinen zoals juridische, medische of technische gebieden, waarborgen parallelle corpora dat modellen specifieke terminologie en taalnuances tegenkomen. Geavanceerde modellen kunnen worstelen met domeinspecifieke jargon of evoluerende taaltrends, waardoor uitdagingen ontstaan voor Zero-Shot Machine Vertaling. Ook laagresourcetalen worden nog steeds slecht vertaald, omdat ze niet over de gegevens beschikken die nodig zijn om nauwkeurige modellen te trainen
Benchmarking: Parallelle corpora blijven essentieel voor het evalueren en benchmarken van de prestaties van vertaalmodellen, vooral uitdagend voor talen met onvoldoende parallelle corpusgegevens. De geautomatiseerde metrics zoals BLEU, BLERT en METEOR hebben beperkingen bij het beoordelen van nuances in vertaalingskwaliteit, los van grammatica. Maar dan zijn wij mensen beperkt door onze vooroordelen. Bovendien zijn er niet veel gekwalificeerde beoordelaars beschikbaar, en het vinden van de perfecte tweetalige beoordelaar voor elke taalcombinatie om subtiele fouten te detecteren, is een uitdaging.
Resource-intensiteit: De resource-intensieve aard van het trainen en implementeren van LLM’s blijft een barrière, waardoor de toegankelijkheid voor sommige toepassingen of organisaties wordt beperkt.
Culturele behoud. De ethische dimensie is diepgaand. Zoals Isaac Caswell, een Google Translate-onderzoeker, Zero-Shot Machine Vertaling beschrijft: “Je kunt het zien als een polyglot die veel talen kent. Maar dan krijgt het ook tekst in 1.000 andere talen te zien die niet vertaald zijn. Je kunt je voorstellen dat je een grote polyglot bent en dan plotseling romans in een andere taal begint te lezen, je kunt beginnen te begrijpen wat het zou kunnen betekenen op basis van je kennis van taal in het algemeen.” Echter, het is cruciaal om de langetermijneffecten op minderheidstalen zonder parallelle corpora te overwegen, wat potentieel de culturele behoud kan beïnvloeden wanneer de afhankelijkheid van de talen zelf afneemt.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, is een gerenommeerde datawetenschapper met meer dan een decennium aan ervaring, waarin zowel productanalyse als analyse voor cutting-edge technologieën zijn begrepen. Ze heeft de creatie en analyse voor Yasmina geleid, de eerste volledig functionele gelokaliseerde AI-gebaseerde spraakassistent voor Saoedi-Arabië, waarbij complexe gegevenslocalisatie en labeling voor Modern Standard Arabic en Saoedische dialecten werden behandeld. Momenteel leidt Irina de kwaliteitsanalyse bij Yandex, waar zij de vooruitgang in AI-technologieën stimuleert.