Vordenker

Transformer-Einfluss: Wurde die maschinelle Übersetzung gelöst?

Published July 29, 2024

Updated April 4, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Google hat kürzlich die Veröffentlichung von 110 neuen Sprachen auf Google Translate im Rahmen ihrer 1000-Sprachen-Initiative aus dem Jahr 2022 angekündigt. Im Jahr 2022 wurden zu Beginn 24 Sprachen hinzugefügt. Mit den letzten 110 Sprachen sind es jetzt 243 Sprachen. Diese schnelle Expansion war dank der Zero-Shot-Maschinenübersetzung möglich, einer Technologie, bei der maschinelle Lernmodelle lernen, ohne vorherige Beispiele in eine andere Sprache zu übersetzen. Aber in der Zukunft werden wir gemeinsam sehen, ob diese Entwicklung die endgültige Lösung für die Herausforderung der maschinellen Übersetzung sein kann, und in der Zwischenzeit können wir die Möglichkeiten erforschen, wie es geschehen kann. Aber zunächst seine Geschichte.

Wie war es vorher?

Statistische Maschinenübersetzung (SMT)

Dies war die ursprüngliche Methode, die Google Translate verwendete. Sie basierte auf statistischen Modellen. Sie analysierten große parallele Korpora, Sammlungen von ausgerichteten Satzübersetzungen, um die wahrscheinlichsten Übersetzungen zu bestimmen. Zunächst übersetzte das System den Text in Englisch als Zwischenschritt, bevor es in die ZielSprache umgewandelt wurde, und es musste Phrasen mit umfangreichen Datenbanken von Transkripten der Vereinten Nationen und des Europäischen Parlaments abgleichen. Es unterscheidet sich von traditionellen Ansätzen, die die Kompilierung umfassender grammatischer Regeln erforderten. Und sein statistischer Ansatz ließ es zu, dass es sich an Daten anpassen und lernen konnte, ohne auf statische sprachliche Rahmenbedingungen angewiesen zu sein, die schnell völlig unnötig werden konnten.

Aber es gibt auch einige Nachteile dieser Methode. Zunächst verwendete Google Translate phrasenbasierte Übersetzungen, bei denen das System Sätze in Phrasen aufbrach und diese einzeln übersetzte. Dies war eine Verbesserung gegenüber der Wort-für-Wort-Übersetzung, aber es hatte noch Einschränkungen wie unangemessene Phrasierungen und Kontextfehler. Es verstand einfach nicht vollständig die Nuancen, wie wir es tun. Außerdem hängt SMT stark von der Verfügbarkeit paralleler Korpora ab, und jede relativ seltene Sprache wäre schwer zu übersetzen, da sie nicht genug parallele Daten hat.

Neuronale Maschinenübersetzung (NMT)

Im Jahr 2016 wechselte Google zu Neural Machine Translation. Es verwendet Deep-Learning-Modelle, um ganze Sätze als Ganzes und auf einmal zu übersetzen, was flüssigere und genauere Übersetzungen liefert. NMT funktioniert ähnlich wie ein sophisticated multilingualer Assistent in Ihrem Computer. Mit einer Sequenz-zu-Sequenz-Architektur (seq2seq) verarbeitet NMT einen Satz in einer Sprache, um seine Bedeutung zu verstehen. Dann generiert es einen entsprechenden Satz in einer anderen Sprache. Diese Methode verwendet enorme Datenmengen zum Lernen, im Gegensatz zur statistischen Maschinenübersetzung, die auf statistischen Modellen basiert, die große parallele Korpora analysieren, um die wahrscheinlichsten Übersetzungen zu bestimmen. Im Gegensatz zu SMT, das sich auf phrasenbasierte Übersetzungen konzentrierte und viel manuelle Arbeit erforderte, um linguistische Regeln und Wörterbücher zu entwickeln und zu warten, ermöglicht NMTs Fähigkeit, ganze Wortsequenzen zu verarbeiten, die nuancierten Kontext der Sprache effektiver zu erfassen. Es hat also die Übersetzungsqualität in verschiedenen Sprachpaaren verbessert, oft auf ein Niveau an Flüssigkeit und Genauigkeit, das mit menschlichen Übersetzern vergleichbar ist.

Tatsächlich verwendeten traditionelle NMT-Modelle rekurrente neuronale Netze (RNNs) als Kernarchitektur, da sie für die Verarbeitung sequenzieller Daten konzipiert sind, indem sie einen versteckten Zustand beibehalten, der sich mit jedem neuen Eingabe (Wort oder Token) entwickelt. Dieser versteckte Zustand dient als eine Art Gedächtnis, das den Kontext der vorherigen Eingaben erfassen lässt, sodass das Modell Abhängigkeiten über die Zeit lernen kann. Aber RNNs waren rechenintensiv und schwierig zu parallelisieren, was ihre Skalierbarkeit begrenzte.

Einführung von Transformern

Im Jahr 2017 veröffentlichte Google Research den Artikel “Attention is All You Need,”, der die Transformers in die Welt einführte und einen wichtigen Schritt weg von RNNs in der neuronalen Netzwerkarchitektur markierte.

Transformers basieren ausschließlich auf dem Aufmerksamkeitsmechanismus, dem Selbst-Aufmerksamkeitsmechanismus, der es neuronalen Maschinenübersetzungsmodellen ermöglicht, selektiv auf die wichtigsten Teile der Eingabesequenzen zu achten. Im Gegensatz zu RNNs, die Wörter in einer Sequenz innerhalb von Sätzen verarbeiten, bewertet Selbst-Aufmerksamkeit jedes Token im gesamten Text, um zu bestimmen, welche anderen für das Verständnis seines Kontexts wichtig sind. Diese simultane Berechnung aller Wörter ermöglicht es Transformern, sowohl kurze als auch lange Abhängigkeiten effektiv zu erfassen, ohne auf rekurrente Verbindungen oder Faltungsfilter angewiesen zu sein.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, ist eine renommierte Datenwissenschaftlerin mit über einem Jahrzehnt Erfahrung, die sowohl Produktanalysen als auch Analysen für hochmoderne Technologien umfasst. Sie leitete die Erstellung und Analyse für Yasmina, den ersten voll funktionsfähigen lokalisierten AI-basierten Sprachassistenten für Saudi-Arabien, und übernahm die komplexe Datenlokalisierung und -beschriftung für Modernes Standardarabisch und saudische Dialekte. Derzeit leitet Irina die Qualitätsanalyse bei Yandex, um die Weiterentwicklung von KI-Technologien voranzutreiben.