Connect with us

Künstliche Intelligenz

Facebook erstellt ein maschinelles Übersetzungsmodell, das direkt zwischen 100 verschiedenen Sprachen übersetzen kann

mm

Facebook hat kürzlich ein neues maschinelles Übersetzungsmodell entwickelt, das Texte zwischen jedem gegebenen Sprachenpaar aus einer Menge von 100 Sprachen übersetzen kann. Während andere maschinelle Übersetzungssysteme existieren, operieren die meisten anderen KI-Übersetzungssysteme, indem sie Texte zunächst ins Englische übersetzen und dann den Text von dort umwandeln. Wie Engadget berichtete, operiert Facebooks KI-Übersetzer ohne die englische Sprache als Mittelsmann und soll etwa 90% Genauigkeit erreichen.

Facebooks Trainingsdaten für das KI-Modell bestanden aus etwa 7,5 Milliarden Satzpaaren, die auf 100 verschiedene Sprachen verteilt waren. Die Daten wurden aus dem Web mithilfe einer Reihe von Web-Crawlern gesammelt, und die in den gesammelten Daten vorhandenen Sprachen wurden mithilfe eines Sprachmodells namens FastText identifiziert. Sobald die Daten gesammelt waren, wurden sie durch ein Tool namens LASER 2.0 geleitet, um die Bedeutung der verschiedenen Satzbeispiele zu extrahieren und Sätze in verschiedenen Sprachen basierend auf ihrer Bedeutung zusammenzuführen. LASER 2.0 wurde von Facebook entwickelt und verwendet unsupervidierte Lernalgorithmen, um Einbettungen zu erstellen. Die Satzeinbettungen enthalten Informationen über die Beziehungen zwischen verschiedenen Sätzen basierend auf Funktionen wie Häufigkeit der Verwendung und wie nahe Sätze einander stehen. LASER 2.0 kann dann Satzpaare erstellen, die sehr ähnliche Bedeutungen haben.

Die Trainingsdaten wurden nicht nur basierend auf Satzbedeutungen gepaart. Die Sprachen selbst wurden auch gruppiert. Das Ziel war es, ein System zu entwerfen, das nicht die englische Sprache als Medium zwischen zwei Sprachen erfordert, wobei Facebooks Angela Fan, die das Projekt leitete, feststellte, dass viele Regionen auf der ganzen Welt zwei Sprachen sprechen, die nicht Englisch sind. Die Facebook-Ingenieure führten die Ausbildung durch, indem sie sich auf die Paarung von Sprachen konzentrierten, die häufig übersetzt werden. Vierzehn verschiedene Sprachgruppen wurden basierend auf Variablen wie Kultur, sprachlichen Ähnlichkeiten und Geographie erstellt. Als Beispiel enthielt eine der von den Forschern erstellten sprachlichen Gruppen die gängigsten Sprachen in Indien, darunter Urdu, Tamil, Hindi und Bengali. Dies wurde getan, um sicherzustellen, dass häufig gepaarte Sprachen hochwertige Übersetzungen erhalten.

Die sprachgruppenorientierte Trainingsmethode führte zu einigen interessanten Ergebnissen. Es wurde festgestellt, dass das resultierende Übersetzungsmodell eine höhere Genauigkeit als aktuell existierende Modelle für bestimmte Sprachpaarungen aufwies. Beispielsweise konnte die KI beim Übersetzen zwischen Englisch und Weißrussisch bestimmte Muster anwenden, die sie beim Übersetzen des Russischen gelernt hatte, da Weißrussisch sprachliche Ähnlichkeiten mit Russisch hat. Ebenso verbesserten sich die Übersetzungsversuche zwischen Spanisch und Portugiesisch, da Spanisch die zweitmeistgesprochene Sprache ist und es eine erhebliche Menge an Trainingsdaten für diese Aufgabe gab.

Es gibt ungefähr sechzig Sprachen, die das Übersetzungssystem noch nicht abdeckt, und die Genauigkeit des Modells für Sprachen ohne große Mengen an Trainingsdaten muss verbessert werden, bevor es einsatzbereit ist. Viele Sprachen in Südostasien und Afrika haben nicht die notwendige Datenmenge, um ein zuverlässiges Modell zu trainieren. Das Forschungsteam muss eine Möglichkeit finden, diese Datenlücke zu kompensieren. Das Forschungsteam muss auch feststellen, wie es vermeiden kann, dass das Modell rassistische, sexistische oder andere anstößige Muster gelernt hat. Obwohl das Forschungsteam einen Obszönitätsfilter verwendet hat, funktioniert dieser hauptsächlich auf den englischen Daten.

Das maschinelle Übersetzungssystem ist noch nicht auf Facebooks sozialem Netzwerk eingesetzt worden. Das aktuelle Modell ist nur für Forschungszwecke bestimmt. Facebook bereitet jedoch ähnliche Modelle vor und wird sie dazu verwenden, die etwa 20 Milliarden Übersetzungsanfragen pro Tag auf der Plattform zu bearbeiten.

Blogger und Programmierer mit Spezialisierungen in Machine Learning und Deep Learning Themen. Daniel hofft, anderen zu helfen, die Macht von KI für das soziale Wohl zu nutzen.