Stummel Facebook erstellt ein maschinelles Übersetzungsmodell, das direkt zwischen 100 verschiedenen Sprachen übersetzen kann – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

Facebook erstellt ein maschinelles Übersetzungsmodell, das direkt zwischen 100 verschiedenen Sprachen übersetzen kann

mm
Aktualisiert on

Facebook hat sich kürzlich entwickelt ein neues maschinelles Übersetzungsmodell das Text zwischen einem beliebigen Sprachpaar aus einem Satz von 100 Sprachen übersetzen kann. Während es andere maschinelle Übersetzungssysteme gibt, funktionieren die meisten anderen KI-Übersetzungssysteme so, dass sie zunächst Text ins Englische übersetzen und ihn dann von dort aus konvertieren.  Wie Engadget berichteteDer KI-Übersetzer von Facebook kommt ohne die Verwendung der englischen Sprache als Mittelsmann aus und kann Berichten zufolge eine Genauigkeit von etwa 90 % erreichen.

Die Trainingsdaten von Facebook für das KI-Modell setzten sich aus rund 7.5 Milliarden Satzpaaren zusammen, verteilt auf 100 verschiedene Sprachen. Die Daten wurden mithilfe einer Reihe von Webcrawlern aus dem Internet zusammengestellt und die in den gesammelten Daten vorhandenen Sprachen wurden mithilfe eines Sprachmodells namens FastText identifiziert. Sobald die Daten erfasst wurden, Es wurde mit einem Tool namens LASER 2.0 ausgeführt um die Bedeutung der verschiedenen Satzbeispiele zu extrahieren und Sätze in verschiedenen Sprachen basierend auf ihrer Bedeutung zuzuordnen. LASER 2.0 wurde von Facebook entwickelt und nutzt unbeaufsichtigte Lernalgorithmen, um Einbettungen zu erstellen. Die Satzeinbettungen enthalten Informationen über die Beziehungen zwischen verschiedenen Sätzen, basierend auf Merkmalen wie der Häufigkeit der Verwendung und der Ähnlichkeit der Sätze zueinander. LASER 2.0 ist dann in der Lage, Satzpaare mit sehr ähnlicher Bedeutung zu erstellen.

Die Trainingsdaten wurden nicht nur anhand der Satzbedeutungen gepaart. Die Sprachen selbst wurden zusammengefasst. Das Ziel bestand darin, ein System zu entwerfen, das nicht die Verwendung von Englisch als Medium zwischen zwei Sprachen erfordert. Angela Fan von Facebook, die das Projekt leitete, wies darauf hin, dass in vielen Regionen der Welt zwei Sprachen gesprochen werden, die nicht Englisch sind. Die Facebook-Ingenieure führten Schulungen durch, indem sie sich auf die Paarung von Sprachen konzentrierten, die üblicherweise ineinander und voneinander übersetzt werden. Basierend auf Variablen wie Kultur, sprachlichen Ähnlichkeiten und Geographie wurden vierzehn verschiedene Sprachgruppen erstellt. Beispielsweise enthielt eine der von den Forschern erstellten Sprachgruppen die in ganz Indien am häufigsten vorkommenden Sprachen, darunter die Sprachen Urdu, Tamil, Hindi und Bengali. Dies geschah, damit häufig gepaarte Sprachen qualitativ hochwertige Übersetzungen erhalten.

Die auf die Sprachgruppe ausgerichtete Trainingsmethode führte zu einigen interessanten Ergebnissen. Es wurde festgestellt, dass das resultierende Übersetzungsmodell für bestimmte Sprachpaarungen eine höhere Genauigkeit aufwies als derzeit vorhandene Modelle. Bei der Übersetzung zwischen Englisch und Weißrussisch konnte die KI beispielsweise bestimmte Muster anwenden, die sie bei der Übersetzung von Russisch gelernt hatte, da das Weißrussische sprachliche Ähnlichkeiten mit dem Russischen aufweist. Ebenso verbesserten sich die Übersetzungsbemühungen zwischen Spanisch und Portugiesisch, da Spanisch die am zweithäufigsten gesprochene Sprache ist und für diese Aufgabe eine beträchtliche Menge an Trainingsdaten zur Verfügung stand.

Es gibt ungefähr sechzig Sprachen, die das Übersetzungssystem noch nicht abdeckt, und die Genauigkeit des Modells für Sprachen ohne viele Trainingsdaten muss verbessert werden, bevor es einsatzbereit ist. Vielen Sprachen in Südostasien und Afrika fehlt die Datenmenge, die zum Trainieren eines zuverlässigen Modells erforderlich ist. Das Forschungsteam muss einen Weg finden, diesen Mangel an Daten auszugleichen. Das Forschungsteam muss auch bestimmen, wie es rassistische, sexistische oder anderweitig profane Muster kontrollieren kann, die das Modell möglicherweise gelernt hat. Während das Forschungsteam einen Obszönitätsfilter verwendet hat, funktioniert der Filter hauptsächlich bei den englischen Daten.

Das maschinelle Übersetzungssystem wurde auf der Social-Media-Plattform von Facebook noch nicht eingesetzt. Das aktuelle Modell dient nur Forschungszwecken. Allerdings bereitet sich Facebook darauf vor, ähnliche Modelle zu entwickeln und diese mit den etwa 20 Milliarden Übersetzungsanfragen zu beauftragen, die täglich auf der Website eingehen.