Künstliche Intelligenz
Apples Lösung zur Übersetzung geschlechtsspezifischer Sprachen

Apple hat in Zusammenarbeit mit der USC gerade ein Papier veröffentlicht, in dem die Methoden des maschinellen Lernens untersucht werden, die eingesetzt werden, um den Benutzern des Betriebssystems iOS18 bei der Übersetzung mehr Auswahlmöglichkeiten hinsichtlich des Geschlechts zu geben.

In iOS18 können Benutzer in der nativen Übersetzer-App alternative Geschlechtsvorschläge für ein übersetztes Wort auswählen. Quelle: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios
Obwohl die in der Arbeit behandelten Themen (die Apple angekündigt hat) werden auf dieser Seite erläutert) greift zwar in gewissem Maße aktuelle Debatten über Geschlechtsdefinitionen auf, konzentriert sich aber auf ein viel älteres Problem: die Tatsache, dass 84 der 229 bekannten Sprachen der Welt ein geschlechtsspezifisches Gendersystem verwenden.

Die roten Punkte kennzeichnen Sprachen, die ein geschlechtsbasiertes Genusssystem verwenden. Quelle: https://wals.info/feature/31A#map
Überraschenderweise die englische Sprache fällt in die Kategorie „geschlechtsbezogen“, weil es männliche oder weibliche Singularpronomen zuordnet.
Im Gegensatz dazu Romanische Sprachen (einschließlich über eine halbe Milliarde Spanischsprachige Sprachen (z. B. Spanischsprachige) und viele andere populäre Sprachen wie Russisch erfordern eine Übereinstimmung des Geschlechts in einer Weise, die die Übersetzungssysteme dazu zwingt, die Geschlechtszuweisung in der Sprache zu berücksichtigen.
Das neue Papier veranschaulicht dies, indem es alle möglichen spanischen Übersetzungen des Satzes betrachtet Die Sekretärin war wütend auf den Chef:

Aus dem neuen Artikel: Ein Beispiel für die möglichen Geschlechtszuweisungen im Satz „Die Sekretärin war wütend auf den Chef“, übersetzt vom Englischen ins Spanische. Quelle: https://arxiv.org/pdf/2407.20438
Für längere Texte, bei denen das Geschlecht bereits zu Beginn festgelegt werden soll, reicht eine naive Übersetzung bei weitem nicht aus ('Er', 'Sie', usw.) und danach nicht mehr auf das Geschlecht Bezug nehmen. Dennoch muss die Übersetzung das zugewiesene Geschlecht des Teilnehmers berücksichtigen im gesamten Text.
Dies kann bei tokenbasierten Ansätzen, bei denen die Übersetzung in einzelnen Abschnitten erfolgt, eine Herausforderung darstellen und das Risiko besteht, dass der zugewiesene Geschlechtskontext über die gesamte Dauer des Inhalts verloren geht.
Schlimmer noch: Systeme, die alternative Übersetzungen für voreingenommene Geschlechtszuweisungen anbieten, können dies nicht wahllos tun, d. h. durch bloße Ersetzung des Geschlechtsnomens, sondern müssen sicherstellen, dass alle anderen Teile der Sprache mit dem geänderten Geschlechtsnomen übereinstimmen.
In diesem Beispiel aus dem Apple/USC-Papier sehen wir, dass Sekretärin wurde ein männliches Geschlecht zugewiesen, die Einzahl Vergangenheit wurde wurde als weiblich belassen (Ich war):

Bei gewaltsamen Geschlechterersetzungen kann die notwendige Übereinstimmung der Geschlechter vernachlässigt werden. In diesem Beispiel müsste das Wort „enojada“ „enojado“ heißen, um mit dem männlichen Wort „El secretario“ übereinzustimmen.
Ein Übersetzungssystem muss auch mit den Eigenheiten bestimmter Sprachen in Bezug auf das Geschlecht zurechtkommen. Wie in dem Artikel dargelegt, ist das Pronomen I ist im Hindi geschlechtsspezifisch, was einen ungewöhnlichen Hinweis auf das Geschlecht liefert.
Geschlechterprobleme
Im neues Papierassoziierte Zeichnung mit dem Titel Generieren von Genderalternativen in der maschinellen Übersetzungschlagen die Forscher von Apple und der USC eine halb beaufsichtigt Methode zum Konvertieren geschlechtsneutraler Entitäten in eine Reihe von Alternativen auf Entitätsebene.
Das System, das zur Übersetzung der Apple Translate-App in iOS18 verwendet wurde, konstruiert ein Sprachschema sowohl durch die Verwendung großer Sprachmodelle (LLMs) als auch durch Feintuning vortrainierte Open-Source-Modelle für maschinelle Übersetzung.
Die Ergebnisse der Übersetzungen dieser Systeme wurden dann in eine Architektur trainiert, die Geschlechterstrukturen – Gruppen von Ausdrücken, die verschiedene Formen geschlechtsspezifischer Substantive enthalten, die dieselbe Entität darstellen.
In dem Papier heißt es*:
„Es ist bekannt, dass geschlechtsspezifische Vorurteile in Trainingsdaten in Systeme zur Verarbeitung natürlicher Sprache (NLP) einfließen und zu einer Verbreitung und Potenzialverstärkung dieser Vorurteile. Solche Vorurteile sind oft auch die eigentliche Ursache von Fehlern.
„Ein maschinelles Übersetzungssystem (MT) könnte beispielsweise Übersetzen Sie „Doctor“ in den spanischen Begriff „médico“ (männlich) statt médica (weiblich), bei der Eingabe „Der Arzt bat die Krankenschwester, ihr bei dem Eingriff zu helfen.“
Um eine falsche Geschlechtszuordnung zu vermeiden, müssen maschinelle Übersetzungssysteme das Geschlecht anhand des Kontexts eindeutig bestimmen. Wenn das richtige Geschlecht nicht anhand des Kontexts bestimmt werden kann, ist die Bereitstellung mehrerer Übersetzungsalternativen, die alle gültigen Geschlechtswahlen abdecken, ein sinnvoller Ansatz.
Der Ansatz der Forscher wandelt eine Übersetzung eines einzelnen Tokens effektiv in ein benutzergesteuertes Array um.
(Obwohl es in dem Dokument nicht erwähnt wird, eröffnet dies die Möglichkeit, entweder in Apple Translate oder in ähnlichen Portalen, die Übersetzungsdienste anbieten, Benutzerentscheidungen in spätere Iterationen des Modells einzubeziehen.)
Das von Apple und USC entwickelte Modell wurde evaluiert anhand der GATE und MT-GenEval Testsätze. GATE enthält Quellsätze mit bis zu 3 geschlechtsneutralen Entitäten, während MT-GenEval Material enthält, bei dem das Geschlecht nicht erschlossen werden kann, was laut den Autoren dabei hilft zu verstehen, wann dem Benutzer keine alternativen Geschlechtsoptionen angeboten werden sollten.
In beiden Fällen mussten die Testsätze neu annotiert werden, um sie an die Ziele des Projekts anzupassen.
Um das System zu trainieren, nutzten die Forscher eine neuartige automatische Datenerweiterung Algorithmus, im Gegensatz zu den oben genannten Test-Sets, die von Menschen annotiert wurden.
Die Datensätze für die Apple-Kuration waren Europarl; WikiTiteleschriebenen Art und Weise; und WikiMatrixDie Korpora wurden unterteilt in G-Tag (mit 12,000 Sätzen), darunter Sätze mit Schlagworte für alle Entitäten zusammen mit einer geschlechtsneutralen Anmerkung; und G-Trans (mit 50,000 Sätzen), die geschlechtsneutrale Entitäten und Geschlechtszuordnungen enthalten.
Die Autoren behaupten:
„Nach unserem besten Wissen handelt es sich hierbei um das erste groß angelegte Korpus, das geschlechtsspezifische Mehrdeutigkeiten und deren Auswirkungen auf geschlechtsspezifische Formen in der Übersetzung enthält.“
Datensätze und verschiedene Daten für das Projekt wurden auf GitHub verfügbar gemachtDie Daten umfassen fünf Sprachenpaare: Englisch, Russisch, Deutsch, Französisch, Portugiesisch und Spanisch.
Die Autoren nutzten ein vorheriger Ansatz ab 2019, um das Modell mit der Fähigkeit auszustatten, Geschlechterausrichtungen auszugeben, Training mit Kreuzentropie Verlust und ein zusätzliches Ausrichtungsverlust.
Für die Datenerweiterungsroutine verzichteten die Autoren auf traditionelle regelbasierte Methodes für einen datenzentrierten Ansatz, die Feinabstimmung eines BERT vortrainiertes Sprachmodell auf dem G-Tag-Datensatz.
Doppelt nehmen
Für Fälle, in denen mehrdeutige Geschlechtsentitäten erkannt werden, haben Apple und USC zwei Methoden untersucht – die Feinabstimmung vorab trainierter Sprachmodelle und die Verwendung von LLMs.
In Bezug auf die erste Methode heißt es in dem Dokument:
„Wir optimieren ein vorab trainiertes MT-Modell M anhand eines Bitexts, der aus dem G-Trans-Datensatz extrahiert wurde. Die Quellsätze dieses Bitexts enthalten mehrdeutige Entitäten, die als männlich oder weiblich gekennzeichnet sind, indem / Tags, und die Zielübersetzung hat die richtigen Geschlechtsbeugungen unter Berücksichtigung der Geschlechts-Tags.‘

Eine Abbildung des Schemas zum Extrahieren von Bitext aus dem G-Trans-Datensatz.
Im obigen Bild sehen wir den fein abgestimmten Text in der unteren mittleren Spalte und die gewünschte Ausgabe in der rechten Spalte, wobei die zugrunde liegende Begründung oben dargestellt ist.
Für diesen Ansatz verwendeten die Autoren eine Gitterneubewertung Methode aus einer frühere Arbeiten 2020Um sicherzustellen, dass nur die Zieldomäne (Geschlecht) angesprochen wurde, eingeschränkte Strahlensuche wurde als Filter verwendet.
Für den LLM-Ansatz entwickelten die Autoren eine Strategie, bei der ein LLM als Herausgeber verwendet wird, indem die bereitgestellten Übersetzungen neu geschrieben werden, um Geschlechtszuweisungen bereitzustellen.

Zur Geschlechtszuordnung wird im LLM anhand eines kontextbezogenen Beispiels aufgefordert.
Mit den Ergebnissen aus beiden Ansätzen wurde das Modell anschließend verfeinert, um Quell-Token zu klassifizieren als ziehen an einem Strang. (im folgenden Schema durch „1“ gekennzeichnet) oder nicht ausgerichtet (unten durch „2“ gekennzeichnet).

Ein Schema zur Verkettung der Ergebnisse aus beiden Ansätzen.
Daten und Tests
Die mehrdeutige Entität Der für das Projekt verwendete Detektor wurde durch Feinabstimmung der Facebook-KI entwickelt xlm-roberta-groß Modell, mit Transformer. Dazu wurde der kombinierte G-Tag über alle fünf Sprachpaare hinweg verwendet.
Im ersten der beiden oben genannten Ansätze M2M 1.2 Mrd. Modell wurde trainiert auf Fairseq, gemeinsam mit Bitext-Daten aus dem G-Trans-Datensatz, mit Geschlechtsbeugungen von Wiktionary.
Für die LLM-Methode verwendeten die Autoren GPT-3.5-Turbo. Für die Ausrichtung der Geschlechtsstrukturen wurde erneut xlm-roberta-large verwendet, dieses Mal mit aus G-Trans extrahierten Geschlechtsausrichtungen.
Metriken zur Bewertung von Alternativen, Struktur (mit Präzision und erinnern), Und Ausrichtungsgenauigkeit.
Obwohl die ersten beiden selbsterklärend sind, misst die Ausrichtungsgenauigkeit den Prozentsatz der ausgegebenen Geschlechtsstrukturen, die mit der bekannten korrekten Quellidentität übereinstimmen, und verwendet die δ-BLEU-Methode, in Übereinstimmung mit der Methodik für MT-GenEval.
Nachfolgend sind die Ergebnisse der Datenerweiterungspipeline aufgeführt:

Ergebnisse der Datenerweiterungstests. Aufwärtspfeile bedeuten „je höher, desto besser“, abwärts gerichtete Pfeile bedeuten „je niedriger, desto besser“.
Hier der Kommentar der Autoren*:
„Sowohl M2M als auch GPT schneiden größtenteils gleich gut ab, mit Ausnahme von Englisch-Russisch, wo GPT eine viel geringere Alternativen-Rückrufrate erreicht (58.7 im Vergleich zu 89.3). Die Qualität der generierten Geschlechtsstrukturen ist für GPT bei Englisch-Deutsch und Englisch-Portugiesisch besser und für M2M bei Englisch-Spanisch und Englisch-Russisch, wie aus den Strukturmetriken ersichtlich ist.
'Beachten Sie, dass wir keine G-Trans-Daten für Englisch-Italienisch haben, sodass die Ergebnisse des M2M-Modells und die Ausrichtungsgenauigkeit für Englisch-Italienisch ausschließlich auf der Zero-Shot-Generalisierung von M2M- und XLM-Modelle. "
Die Forscher verglichen außerdem die Leistung des Datenerweiterungssystems über M2M mit der Gender-Umschreibung auf Satzebene von GATE gemäß den von GATE selbst festgelegten Bedingungen.

Die Datenerweiterungspipeline von Apple/USC konkurrierte mit der GATE-Methode auf Satzebene.
Hier heißt es in dem Papier:
„Wir sehen signifikante Verbesserungen beim Rückruf auf Kosten einer relativ geringen Verschlechterung der Präzision (außer Englisch-Italienisch). Unser System kann GATE bei der vorgeschlagenen F.5-Metrik in allen drei Sprachpaaren übertreffen.“
Schließlich trainierten die Autoren verschiedene mehrsprachige „Vanilla“-Modelle in Vanille-Bi-Text. Die beitragenden Datensätze waren WikiMatrix, WikiTitel, Multi-UN, NachrichtenKommentarund Tilde.
Zwei weitere Vanilla-Modelle wurden trainiert, eines davon mit dem G-Trans-Datensatz mit dem vorangestellten Tag , das als überwachte Basislinie verwendet wurde; und ein drittes, das die Geschlechterstruktur und -ausrichtungen berücksichtigte (auf dem kleineren lokalen Modell, da die Verwendung der API-basierten Dienste von GPT für diesen Zweck sehr teuer gewesen wäre).
Die Modelle wurden gegen die 2022 getestet FloRes Datensatz.

Durchgängige Standardmodelle für maschinelle Übersetzung getestet (P = Präzision, R = Rückruf).
Das Papier fasst diese Ergebnisse zusammen:
„Das Standardmodell kann keine Alternativen generieren und zeigt eine enorme Tendenz zur Generierung maskuliner Formen (δ-BLEU im Bereich von 5.3 bis 12.5 Punkten).
„Diese Verzerrung wird durch die überwachte Basislinie stark reduziert. Das mit erweiterten Daten trainierte Modell reduziert die Verzerrung weiter und erzielt die beste Leistung in Bezug auf alternative Metriken, Ausrichtungsgenauigkeit und δ-BLEU.
„Dies zeigt die Effektivität der Datenerweiterungspipeline. Erweiterte Daten ermöglichen es uns auch, ein wettbewerbsfähiges System für Englisch-Italienisch zu trainieren, dem überwachte Daten fehlen.“
Die Autoren kommen zu dem Schluss, dass der Erfolg des Modells im breiteren Kontext des Bemühens der NLP um eine Rationalisierung der Geschlechtszuweisung in einer Übersetzungsmethode betrachtet werden muss; und sie weisen darauf hin, dass dies weiterhin ein ungelöstes Problem ist.
Obwohl die Forscher der Ansicht sind, dass die erzielten Ergebnisse das Ziel der Erstellung geschlechtsneutraler Übersetzungen auf Entitätsebene und/oder der Begriffsklärung in Bezug auf das Geschlecht nicht vollständig erreichen, sind sie überzeugt, dass die Arbeit ein „leistungsfähiges Instrument“ für zukünftige Untersuchungen in einem der anspruchsvollsten Bereiche der maschinellen Übersetzung darstellt.
* Meine Konvertierung der Inline-Zitate der Autoren in Hyperlinks
Erstveröffentlichung Dienstag, 8. Oktober 2024












