Andersons Blickwinkel

Apples Lösung für die Übersetzung von geschlechtsspezifischen Sprachen

Veröffentlicht am 8. Oktober 2024

Aktualisiert am 20. Mai 2026

Von

Martin Anderson

A photo of the Rosetta Stone, with a woman out of focus in the background, looking at the stone. Source: https://smarthistory.org/the-rosetta-stone/

Apple hat gerade einen Artikel veröffentlicht, in Zusammenarbeit mit der USC, der die maschinellen Lernmethoden untersucht, die den Nutzern des iOS18-Betriebssystems mehr Auswahlmöglichkeiten hinsichtlich des Geschlechts bei der Übersetzung bieten.

Im iOS18 können Benutzer alternative Geschlechtsvorschläge für ein übersetztes Wort in der nativen Übersetzungs-App auswählen. Quelle: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

Obwohl die im Artikel behandelten Probleme (den Apple hier bekannt gegeben hat) bis zu einem bestimmten Grad an aktuellen Debatten über Geschlechtsdefinitionen teilnehmen, konzentriert es sich auf ein viel älteres Problem: die Tatsache, dass 84 der 229 bekannten Sprachen der Welt ein geschlechtsspezifisches System verwenden.

Die roten Punkte zeigen Sprachen, die ein geschlechtsspezifisches System verwenden. Quelle: https://wals.info/feature/31A#map

Überraschenderweise fällt die englische Sprache in die Kategorie der geschlechtsspezifischen Sprachen, da sie männliche oder weibliche Singularpronomen zuweist.

Im Gegensatz dazu erfordern alle romanischen Sprachen (einschließlich über eine halbe Milliarde spanischsprachiger Menschen) – und mehrere andere beliebte Sprachen, wie Russisch – eine Geschlechtsübereinstimmung, die Übersetzungs-Systeme zwingt, Geschlechtszuweisungen in der Sprache zu berücksichtigen.

Der neue Artikel veranschaulicht dies, indem er alle möglichen spanischen Übersetzungen des Satzes Der Sekretär war wütend auf den Chef betrachtet:

Aus dem neuen Artikel, ein Beispiel für die möglichen Geschlechtszuweisungen im Satz ‘Der Sekretär war wütend auf den Chef’, übersetzt von Englisch ins Spanische. Quelle: https://arxiv.org/pdf/2407.20438

Naive Übersetzungen sind für längere Texte weit entfernt von ausreichend, da sie möglicherweise am Anfang (z. B. Er, Sie usw.) ein Geschlecht festlegen und danach nicht mehr auf das Geschlecht eingehen. Dennoch muss die Übersetzung das zugewiesene Geschlecht des Teilnehmers im gesamten Text im Gedächtnis behalten.

Das kann für tokenbasierte Ansätze, die Übersetzungen in diskreten Blöcken bearbeiten, herausfordernd sein und das Risiko bergen, den Geschlechtskontext im Laufe des Inhalts zu verlieren.

Schlimmer noch, Systeme, die alternative Übersetzungen für voreingenommene Geschlechtszuweisungen bereitstellen, können dies nicht willkürlich tun, d. h. indem sie einfach das Geschlechtspronomen ersetzen, sondern müssen sicherstellen, dass alle anderen Teile der Sprache mit dem geänderten Geschlechtspronomen übereinstimmen.

In diesem Beispiel aus dem Apple/USC-Artikel sehen wir, dass, obwohl Sekretär ein männliches Geschlecht zugewiesen wurde, die Singularform war als weiblich (estaba) belassen wurde:

Brute-Force-Geschlechtsersetzungen können notwendige Geschlechtsübereinstimmung vernachlässigen. In diesem Beispiel sollte das Wort ‘enojada’ ‘enojado’ sein, um mit dem maskulinen ‘El secretario’ übereinzustimmen.

Ein Übersetzungs-System muss auch mit den Eigenheiten bestimmter Sprachen in Bezug auf Geschlecht umgehen. Wie der Artikel feststellt, ist das Pronomen Ich in Hindi geschlechtsspezifisch, was einen ungewöhnlichen Hinweis auf das Geschlecht bietet.

Geschlechtsprobleme

In dem neuen Artikel, betitelt Erzeugung von Geschlechtsalternativen in der maschinellen Übersetzung, schlagen die Apple- und USC-Forscher eine halbüberwachte Methode vor, um Benutzern von Apples Übersetzungs-App in iOS18 mehr Auswahlmöglichkeiten bei der Geschlechtsübersetzung zu bieten.

Das System, das zur Informierung der Übersetzung aus der Apple-Übersetzungs-App in iOS18 verwendet wurde, erstellt ein Sprachschema durch die Verwendung großer Sprachmodelle (LLMs) und durch Feinabstimmung vorab trainierter offener maschineller Übersetzungsmodelle.

Die Ergebnisse der Übersetzungen aus diesen Systemen wurden dann in eine Architektur trainiert, die Geschlechtsstrukturen enthält – Gruppen von Phrasen, die diverse Formen von geschlechtsspezifischen Substantiven darstellen, die dieselbe Entität repräsentieren.

Der Artikel besagt*:

‘Geschlechtervorurteile in Trainingsdaten sind bekannt dafür, in natürliche Sprachverarbeitung (NLP)-Systeme einzudringen und sich in der Verbreitung und möglichen Verstärkung dieser Vorurteile zu manifestieren. Solche Vorurteile sind oft auch die Wurzel von Fehlern.

‘Ein maschinelles Übersetzungs-System (MT) könnte beispielsweise den Arzt ins spanische Wort médico (männlich) übersetzen, anstatt médica (weiblich), wenn die Eingabe “Der Arzt bat die Krankenschwester, ihm bei dem Eingriff zu helfen” lautet.

‘Um falsche Geschlechtszuweisungen zu vermeiden, müssen MT-Systeme das Geschlecht durch den Kontext aufklären. Wenn das richtige Geschlecht durch den Kontext nicht bestimmt werden kann, ist es vernünftig, mehrere Übersetzungsalternativen bereitzustellen, die alle gültigen Geschlechtsauswahlen abdecken.’

Der Ansatz, den die Forscher entwickelt haben, verwandelt effektiv eine Übersetzung von einem einzelnen Token in ein benutzerkontrolliertes Array.

(Obwohl der Artikel es nicht erwähnt, eröffnet sich hier die Möglichkeit, dass Benutzerwahlen in Apple Translate oder in ähnlichen Portalen, die Übersetzungs-Dienste anbieten, in spätere Iterationen des Modells einfließen könnten)

Das Modell, das Apple und USC entwickelt haben, wurde auf den GATE– und MT-GenEval-Testsets ausgewertet. GATE enthält Quellsätze mit bis zu 3 geschlechtsspezifischen Entitäten, während MT-GenEval Material enthält, bei dem das Geschlecht nicht abgeleitet werden kann, was, wie die Autoren feststellen, hilft, zu verstehen, wann alternative Geschlechts-Optionen dem Benutzer nicht angeboten werden sollten.

In beiden Fällen mussten die Testsets neu annotiert werden, um den Zielen des Projekts zu entsprechen.

Um das System zu trainieren, verließen sich die Forscher auf einen neuartigen automatischen Datenvergrößerungs-Algorithmus, im Gegensatz zu den oben genannten Testsets, die von Menschen annotiert wurden.

Die Beitragsdatensätze für die Apple-Kuration waren Europarl; WikiTitles; und WikiMatrix. Die Korpora wurden in G-Tag (mit 12.000 Sätzen) unterteilt, die Sätze mit Hauptwörtern für alle Entitäten umfassten, zusammen mit einer geschlechtsspezifischen Annotation; und G-Trans (mit 50.000 Sätzen), das geschlechtsspezifische Entitäten und Geschlechtsübereinstimmungen enthielt.

Die Autoren behaupten*:

‘Soweit wir wissen, ist dies das erste große Korpus, das Geschlechtsunsicherheiten und ihre Auswirkungen auf geschlechtsspezifische Formen in der Übersetzung enthält.’

Die Datensätze und vielfältigen Daten für das Projekt wurden auf GitHub veröffentlicht. Die Daten umfassen fünf Sprachpaare, wobei Englisch gegen Russisch, Deutsch, Französisch, Portugiesisch und Spanisch ausgetauscht wird.

Die Autoren nutzten einen vorherigen Ansatz aus dem Jahr 2019, um dem Modell die Fähigkeit zu verleihen, Geschlechtsübereinstimmungen auszugeben, und trainierten mit Kreuzentropie–Verlust und einem zusätzlichen Übereinstimmungsverlust.

Für die Datenvergrößerungsroutine bevorzugten die Autoren einen datenzentrierten Ansatz und feinabstimmten ein BERT-Vorabtrainings-Sprachmodell auf dem G-Tag-Datensatz.

Zweite Überlegung

Für Fälle, in denen unsichere Geschlechts-Entitäten erkannt werden, untersuchten Apple und USC zwei Methoden – die Feinabstimmung vorab trainierter Sprachmodelle und die Verwendung von LLMs.

In Bezug auf die erste Methode besagt der Artikel:

‘Wir feinabstimmen ein vorab trainiertes MT-Modell M auf einem Bi-Text, das aus dem G-Trans-Datensatz extrahiert wurde. Die Quellsätze dieses Bi-Texts enthalten unsichere Entitäten, die als männlich oder weiblich mit <M>/<F>-Tags markiert sind, und die Zielübersetzung hat die richtigen Geschlechtsflexionen, die den Geschlechtstags entsprechen.’

<emEine Darstellung des Schemas für die Extraktion von Bi-Text aus dem G-Trans-Datensatz.

Im Bild oben sehen wir den feinabgestimmten Text in der unteren mittleren Spalte und die gewünschte Ausgabe in der rechten Spalte, mit der zugrunde liegenden Begründung, die oben dargestellt ist.

Für diesen Ansatz nutzten die Autoren eine Gitter-Neubewertung-Methode aus einer früheren Arbeit aus dem Jahr 2020. Um sicherzustellen, dass nur das Zielbereich (Geschlecht) angesprochen wurde, wurde eine einschränkende Strahlen-Suche als Filter verwendet.

Bei der LLM-Methode entwickelten die Autoren eine Strategie, die ein LLM als Editor verwendet, indem es die bereitgestellten Übersetzungen neu schreibt, um Geschlechtszuweisungen vorzunehmen.

Das LLM wird mit einem Kontextbeispiel angestoßen, um das Geschlecht zuzuweisen.

Mit den Ergebnissen beider Ansätze wurden die Modelle anschließend feinabgestimmt, um Quelltoken als übereinstimmend (durch ‘1’ im Schema unten angezeigt) oder nicht übereinstimmend (durch ‘2’ unten angezeigt) zu klassifizieren.

Ein Schema für die Verkettung der Ergebnisse aus beiden Ansätzen.

Daten und Tests

Der unsichere Entitäts-Detektor, der für das Projekt verwendet wurde, wurde durch Feinabstimmung des xlm-roberta-large-Modells von Facebook AI unter Verwendung von Transformern entwickelt. Dazu wurde das kombinierte G-Tag über alle fünf Sprachpaare verwendet.

Im ersten der oben genannten beiden Ansätze wurde das M2M 1.2B-Modell auf Fairseq trainiert, gemeinsam mit Bi-Text-Daten aus dem G-Trans-Datensatz, mit Geschlechtsflexionen, die von Wiktionary bereitgestellt wurden.

Bei der LLM-Methode verwendeten die Autoren GPT-3.5-Turbo. Für die Ausrichtung der Geschlechtsstrukturen wurde xlm-roberta-large erneut verwendet, diesmal mit Geschlechtsübereinstimmungen, die aus G-Trans extrahiert wurden.

Metriken für die Bewertung von Alternativen, Struktur (mit Präzision und Erinnerung) und Übereinstimmungs-Genauigkeit.

Obwohl die ersten beiden dieser Metriken selbstverständlich sind, misst die Übereinstimmungs-Genauigkeit den Prozentsatz der Ausgabe-Geschlechtsstrukturen, die der bekannten richtigen Quellidentität entsprechen, und verwendet die δ-BLEU-Methode, gemäß der Methodik für MT-GenEval.

Unten sind die Ergebnisse für die Datenvergrößerungspipeline:

Ergebnisse aus den Datenvergrößerungstests. Aufwärtszeichen zeigen ‘höher-besser’, abwärts ‘niedriger-besser’.

Hier kommentieren die Autoren*:

‘Sowohl M2M als auch GPT erzielen größtenteils gleich gute Ergebnisse, mit Ausnahme von Englisch-Russisch, wo GPT eine viel niedrigere Alternative-Erinnerung (58,7 im Vergleich zu 89,3) erzielt. Die Qualität der generierten Geschlechtsstrukturen ist für GPT bei Englisch-Deutsch und Englisch-Portugiesisch besser und für M2M bei Englisch-Spanisch und Englisch-Russisch, wie aus den Strukturmetriken hervorgeht.

‘Hinweis, dass wir für Englisch-Italienisch keine G-Trans-Daten haben, sodass die Ergebnisse des M2M-Modells und die Übereinstimmungs-Genauigkeit für Englisch-Italienisch rein auf die Null-Shot-Verallgemeinerung des M2M- und XLM-Modells zurückzuführen sind.’

Die Forscher verglichen auch die Leistung des Datenvergrößerungssystems von M2M gegenüber dem Satz-Geschlechts-Neuschreiber von GATE auf GATEs eigenen Bedingungen.

Die Apple/USC-Datenvergrößerungspipeline im Vergleich zum Satz-Geschlechts-Methodik von GATE.

Hier besagt der Artikel:

‘Wir sehen signifikante Verbesserungen bei der Erinnerung bei einem relativ kleinen Rückgang bei der Präzision (außer bei Englisch-Italienisch). Unser System kann GATE auf ihrer vorgeschlagenen F.5-Metrik bei allen drei Sprachpaaren überbieten.’

Schließlich trainierten die Autoren diverse ‘Vanilla’-Multilingual-Modelle in Vanilla-Bi-Text. Die Beitragsdatensätze waren WikiMatrix, WikiTitles, Multi-UN, NewsCommentary und Tilde.

Zwei weitere Vanilla-Modelle wurden trainiert, eines, das das G-Trans-Datensatz mit dem vorangestellten Tag <Geschlecht> integrierte, das als überwachter Baseline verwendet wurde; und ein drittes, das Geschlechtsstruktur und -übereinstimmungen (auf dem kleineren lokalen Modell, da die Verwendung von GPTs API-basierten Diensten für diesen Zweck sehr teuer gewesen wäre) enthielt.

Die Modelle wurden gegen das FloRes-Datensatz aus dem Jahr 2022 getestet.

Ende-zu-Ende-Vanilla-Maschinenübersetzungs-Modelle getestet (P = Präzision, R = Erinnerung).

Der Artikel fasst diese Ergebnisse zusammen:

‘Das Vanilla-Modell kann keine Alternativen erzeugen und zeigt eine enorme Vorliebe für die Erzeugung maskuliner Formen (δ-BLEU reicht von 5,3 bis 12,5 Punkten).

‘Diese Vorliebe wird durch die überwachte Baseline stark reduziert. Das Modell, das auf vergrößerten Daten trainiert wurde, reduziert die Vorliebe weiter und erzielt die beste Leistung in Bezug auf alternative Metriken, Übereinstimmungs-Genauigkeit und δ-BLEU.

‘Dies zeigt die Wirksamkeit der Datenvergrößerungspipeline. Vergrößerte Daten ermöglichen es auch, ein wettbewerbsfähiges System für Englisch-Italienisch zu trainieren, das ansonsten keine überwachten Daten hat.’

Die Autoren kommen zu dem Schluss, dass der Erfolg des Modells im breiteren Kontext des Kampfes der NLP um die Rationalisierung der Geschlechtszuweisung in einer Übersetzungs-Methode betrachtet werden muss; und sie bemerken, dass dies ein offenes Problem bleibt.

Obwohl die Forscher glauben, dass die erzielten Ergebnisse das Ziel der Erzeugung von entitätsbezogenen geschlechtsneutralen Übersetzungen und/oder Geschlechts-Disambiguierungen nicht vollständig erreichen, betrachten sie die Arbeit als ‘ein mächtiges Instrument’ für zukünftige Erkundungen in einem der herausforderndsten Bereiche der maschinellen Übersetzung.

* Meine Umwandlung der Autorenzitate in Hyperlinks

Erstveröffentlicht am Dienstag, den 8. Oktober 2024