Verbind je met ons

Artificial Intelligence

Apple's oplossing voor het vertalen van gendergerelateerde talen

mm
Een foto van de Steen van Rosetta, met een vrouw onscherp op de achtergrond, kijkend naar de steen. Bron: https://smarthistory.org/the-rosetta-stone/

Apple heeft zojuist, in samenwerking met USC, een paper gepubliceerd waarin de machine learning-methoden worden onderzocht die worden gebruikt om gebruikers van het besturingssysteem iOS18 meer keuzevrijheid te geven wat betreft geslacht als het gaat om vertalingen.

In iOS18 kunnen gebruikers alternatieve geslachtsvoorstellen selecteren voor een vertaald woord in de native Translate-app. Bron: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

In iOS18 kunnen gebruikers alternatieve geslachtsvoorstellen selecteren voor een vertaald woord in de native Translate-app. Bron: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

Hoewel de problemen die in het werk zijn aangepakt (dat Apple heeft aangekondigd hier) gaat in zekere zin in op actuele debatten over de definitie van gender, maar richt zich op een veel ouder probleem: het feit dat 84 van de 229 bekende talen in de wereld gebruik een op geslacht gebaseerd gendersysteem.

De rode stippen geven talen aan die een op sekse gebaseerd gendersysteem gebruiken. Bron: https://wals.info/feature/31A#map

De rode stippen geven talen aan die een gendersysteem gebruiken dat gebaseerd is op geslacht. Bron: https://wals.info/feature/31A#map

Verrassend genoeg is de Engelse taal valt in de categorie op basis van geslacht, omdat het mannelijke of vrouwelijke enkelvoudige voornaamwoorden toekent.

Daarentegen zijn alle Taal van de liefde (inclusief meer dan een half miljard Spaanstaligen) – en meerdere andere populaire talen, zoals Russisch – vereisen genderconformiteit op manieren die vertaalsystemen dwingen om rekening te houden met geslachtstoewijzing in taal.

Het nieuwe artikel illustreert dit door alle mogelijke Spaanse vertalingen van de zin te bekijken De secretaresse was boos op de baas:

Uit het nieuwe artikel, een voorbeeld van de mogelijke geslachtstoewijzingen in de zin 'The secretary was angry with the boss', vertaald van Engels naar Spaans. Bron: https://arxiv.org/pdf/2407.20438

Uit het nieuwe artikel: een voorbeeld van de mogelijke geslachtstoewijzing in de zin 'De secretaresse was boos op de baas', vertaald van het Engels naar het Spaans. Bron: https://arxiv.org/pdf/2407.20438

NaĂŻeve vertaling is verre van voldoende voor langere teksten, die het geslacht al aan het begin kunnen vaststellen ('Hij', 'Zij', etc.) en daarna niet meer naar het geslacht verwijzen. Niettemin moet de vertaling het toegewezen geslacht van de deelnemer onthouden door de hele tekst heen.

Dit kan een uitdaging vormen voor op tokens gebaseerde benaderingen die vertalingen in afzonderlijke delen verwerken en het risico lopen dat de toegewezen gendercontext gedurende de hele inhoud verloren gaat.

Erger nog, systemen die alternatieve vertalingen bieden voor bevooroordeelde geslachtstoewijzingen kunnen dit niet lukraak doen, dat wil zeggen door simpelweg het geslachtsnaamwoord te vervangen, maar moeten ervoor zorgen dat alle andere delen van de taal overeenkomen met het gewijzigde geslachtsnaamwoord.

In dit voorbeeld uit het Apple/USC-artikel zien we dat hoewel Secretaris is een mannelijk geslacht toegewezen, het enkelvoudige verleden was is als vrouwelijk gelaten (Dat was ik):

Brute-force gender substitutions kunnen de noodzakelijke genderovereenkomst verwaarlozen. In dit voorbeeld zou het woord 'enojada' 'enojado' moeten zijn, om overeen te komen met het mannelijke 'El secretario'.

Brute-force geslachtsvervangingen kunnen de noodzakelijke geslachtscongruentie verwaarlozen. In dit voorbeeld zou het woord 'enojada' 'enojado' moeten zijn, om overeen te komen met het mannelijke 'El secretario'.

Een vertaalsysteem moet ook omgaan met de eigenaardigheden van bepaalde talen met betrekking tot gender. Zoals het artikel aangeeft, is het voornaamwoord I wordt in het Hindi aangegeven met een geslacht, wat een ongebruikelijke aanwijzing voor het geslacht oplevert.

Geslachtsproblemen

In de nieuw papier, getiteld Genereren van genderalternatieven in machinevertaling, stellen de onderzoekers van Apple en USC een semi-begeleid Methode om gender-ambigue entiteiten om te zetten in een reeks alternatieven op entiteitsniveau.

Het systeem, dat werd gebruikt om vertalingen te informeren vanuit de Apple Translate-app in iOS18, construeert een taalschema door zowel het gebruik van grote taalmodellen (LLM's) als door scherpstellen vooraf getrainde open source machinevertaalmodellen.

De resultaten van vertalingen van deze systemen werden vervolgens getraind in een architectuur die genderstructuren – groepen zinnen die diverse vormen van zelfstandige naamwoorden met verschillende geslachten bevatten die dezelfde entiteit vertegenwoordigen.

In de krant staat*:

'Het is bekend dat gender-vooroordelen in treingegevens doorsijpelen in systemen voor natuurlijke taalverwerking (NLP), wat resulteert in verspreiding en potentiële versterking van die vooroordelen. Zulke vooroordelen zijn vaak ook de hoofdoorzaak van fouten.

'Een systeem voor machinaal vertalen (MT) kan bijvoorbeeld: vertaal dokter naar de Spaanse term médico (mannelijk) in plaats van médica (vrouwelijk), gegeven de invoer “De dokter vroeg de verpleegster om haar te helpen bij de procedure”.

Om te voorkomen dat er een verkeerde geslachtstoewijzing wordt voorgeschreven, moeten MT-systemen het geslacht via de context kunnen onderscheiden. Wanneer het juiste geslacht niet via de context kan worden bepaald, is het een redelijke aanpak om meerdere vertaalalternatieven te bieden die alle geldige geslachtskeuzes dekken.

De aanpak waar de onderzoekers toe zijn gekomen, zorgt ervoor dat de vertaling van een enkel token effectief wordt omgezet in een door de gebruiker bestuurde reeks.

(Hoewel het artikel er niet over spreekt, opent dit de mogelijkheid, zowel in Apple Translate als in vergelijkbare portals die vertaaldiensten aanbieden, om de keuzes van de gebruiker terug te voeren in latere iteraties van het model)

Het model dat Apple en USC ontwikkelden, werd geëvalueerd op de GATE en MT-GenEval testsets. GATE bevat bronzinnen met maximaal 3 gender-ambigue entiteiten, terwijl MT-GenEval materiaal bevat waaruit het geslacht niet kan worden afgeleid, wat volgens de auteurs helpt bij het begrijpen wanneer alternatieve genderopties niet aan de gebruiker moeten worden aangeboden.

In beide gevallen moesten de testsets opnieuw worden geannoteerd om ze af te stemmen op de doelstellingen van het project.

Om het systeem te trainen, vertrouwden de onderzoekers op een nieuwe automatische gegevensvergroting algoritme, in tegenstelling tot de eerder genoemde testsets, die door mensen werden geannoteerd.

Bijdragende datasets voor de Apple-curatie waren: Europarl; WikiTitelsund WikiMatrixDe corpora werden verdeeld in G-tag (met 12,000 zinnen), waaronder zinnen met hoofdwoorden voor alle entiteiten, samen met een gender-ambigue annotatie; en G-Trans (met 50,000 zinnen), met gender-ambigue entiteiten en genderuitlijningen.

De auteurs beweren:

'Voor zover wij weten, is dit het eerste grootschalige corpus dat genderambiguĂŻteiten bevat en hoe deze genderspecifieke vormen in de vertaling beĂŻnvloeden.'

Datasets en diverse gegevens voor het project zijn beschikbaar gesteld op GitHubDe gegevens bevatten vijf taalparen, waarbij Engels wordt afgezet tegen Russisch, Duits, Frans, Portugees en Spaans.

De auteurs maakten gebruik van een eerdere benadering vanaf 2019 om het model te voorzien van de mogelijkheid om genderuitlijningen uit te voeren, training met kruis entropie uit en een extra uitlijningsverlies.

Voor de routine van data-augmentatie hebben de auteurs de traditionele methodes vermeden op regels gebaseerde methodeis voorstander van een datacentrische aanpak, waarbij een BERT Vooraf getraind taalmodel op de G-Tag-dataset.

Dubbel-take

Voor gevallen waarin ambigue geslachtsvormen worden gedetecteerd, hebben Apple en USC twee methoden onderzocht: het verfijnen van vooraf getrainde taalmodellen en het gebruik van LLM's.

Met betrekking tot de eerste methode stelt het artikel:

'We finetunen een vooraf getraind MT-model M op een bitekst die is geëxtraheerd uit de G-Trans-dataset. De bronzinnen van deze bitekst bevatten dubbelzinnige entiteiten die zijn getagd als mannelijk of vrouwelijk met behulp van / tags, en de doelvertaling heeft de juiste geslachtsvervoegingen gegeven de geslachtstags.'

Een illustratie van het schema voor het extraheren van bitekst uit de G-Trans-dataset.

Een illustratie van het schema voor het extraheren van bitekst uit de G-Trans-dataset.

In de afbeelding hierboven zien we de verfijnde tekst in de onderste middelste kolom en de gewenste uitvoer in de rechterkolom, waarbij de onderliggende logica hierboven wordt geĂŻllustreerd.

Voor deze aanpak maakten de auteurs gebruik van een rooster opnieuw scoren methode van een eerder werk 2020Om ervoor te zorgen dat alleen het doeldomein (geslacht) werd aangesproken, beperkte straal zoeken werd gebruikt als filter.

Voor de LLM-aanpak hebben de auteurs een strategie ontwikkeld waarbij een LLM als redacteur optreedt. Dit gebeurt door de aangeleverde vertalingen te herschrijven en zo gendertoewijzingen te geven.

De LLM wordt aan de hand van een contextueel voorbeeld aangestuurd om een ​​geslacht toe te kennen.

De LLM wordt aan de hand van een contextueel voorbeeld aangestuurd om een ​​geslacht toe te kennen.

Met de resultaten van beide benaderingen samengevoegd, werd het model vervolgens verfijnd om brontokens te classificeren als uitgelijnd (aangegeven met '1' in het onderstaande schema) of niet uitgelijnd (hieronder aangegeven met '2').

Een schema voor de aaneenschakeling van resultaten uit beide benaderingen.

Een schema voor de aaneenschakeling van resultaten uit beide benaderingen.

Gegevens en testen

Ocuco's Medewerkers dubbelzinnige entiteit De detector die voor het project werd gebruikt, werd ontwikkeld door de AI van Facebook te verfijnen  xlm-roberta-groot model, met behulp van transformersHiervoor werd de gecombineerde G-Tag gebruikt in alle vijf taalparen.

In de eerste van de twee hierboven genoemde benaderingen is de M2M 1.2B model is getraind op Fairseq, samen met bitekstgegevens uit de G-Trans-dataset, met geslachtsvervoegingen geleverd door Wiktionary.

Voor de LLM-methode gebruikten de auteurs GPT-3.5-turboVoor de uitlijning van genderstructuren werd opnieuw xlm-roberta-large gebruikt, ditmaal met genderuitlijningen geëxtraheerd uit G-Trans.

Metriek voor de evaluatie van alternatieven, structuur (met precisie en herinneren), En nauwkeurigheid van de uitlijning.

Hoewel de eerste twee hiervan voor zichzelf spreken, meet de nauwkeurigheid van de uitlijning het percentage van de output-geslachtsstructuren die voldoen aan de bekende correcte bronidentiteit, en gebruikt de δ-BLEU-methode, in overeenstemming met de methodologie voor MT-GenEval.

Hieronder vindt u de resultaten voor de data-augmentatiepijplijn:

Resultaten van de data augmentation tests. Pijlen omhoog geven 'hoe hoger hoe beter' aan, pijlen omlaag 'hoe lager hoe beter'.

Resultaten van de data-augmentatietests. Pijlen omhoog geven 'hoe hoger hoe beter' aan, pijlen omlaag 'hoe lager hoe beter'.

Hier is het commentaar van de auteurs*:

'Zowel M2M als GPT presteren over het algemeen gelijkwaardig, met uitzondering van Engels-Russisch, waar GPT een veel lagere alternatieve recall behaalt (58.7 vergeleken met 89.3). De kwaliteit van gegenereerde genderstructuren is beter voor GPT op Engels-Duits en Engels-Portugees en beter voor M2M op Engels-Spaans en Engels-Russisch, zoals blijkt uit de structuurmetrieken.

'Houd er rekening mee dat we geen G-Trans-gegevens hebben voor Engels-Italiaans, dus de resultaten van het M2M-model en de uitlijningsnauwkeurigheid voor Engels-Italiaans zijn puur te danken aan zero-shot-generalisatie van M2M- en XLM-modellen. '

De onderzoekers vergeleken ook de prestaties van het data-augmentatiesysteem, via M2M, met de gender-herschrijver op zinsniveau van GATE, volgens de voorwaarden van GATE zelf.

De Apple/USC-pijplijn voor data-augmentatie vergeleken met de GATE-methode op zinsniveau.

De Apple/USC-pijplijn voor data-augmentatie vergeleken met de GATE-methode op zinsniveau.

Het artikel stelt het volgende:

'We zien aanzienlijke verbeteringen in het geheugen ten koste van een relatief kleine afname in nauwkeurigheid (behalve Engels-Italiaans). Ons systeem presteert beter dan GATE op hun voorgestelde F.5-metriek voor alle drie de taalparen.'

Ten slotte trainden de auteurs diverse 'vanille'-meertalige modellen in vanille bi-tekstDe bijdragende datasets waren WikiMatrix, WikiTitels, Multi-VN, NieuwsCommentaaren tilde.

Er werden twee extra vanillemodellen getraind, waarvan er één de G-Trans-dataset met de voorvoegseltag bevatte , die werd gebruikt als de begeleide basislijn; en een derde, waarin de genderstructuur en -afstemmingen werden opgenomen (op het kleinere lokale model, aangezien het gebruik van de API-gebaseerde services van GPT voor dit doel erg duur zou zijn geweest).

De modellen werden getest tegen de 2022 Bloemen gegevensset.

End-to-end vanille machinevertaalmodellen getest (P = precisie, R = recall).

End-to-end vanille machinevertaalmodellen getest (P = precisie, R = recall).

Het artikel vat deze resultaten samen:

'Het vanillemodel kan geen alternatieven genereren en vertoont een grote voorkeur voor het genereren van mannelijke vormen (δ-BLEU variërend van 5.3 tot 12.5 punten).

'Deze bias wordt sterk verminderd door de supervised baseline. Het model dat is getraind op augmented data vermindert de bias verder en behaalt de beste prestaties in termen van alternatieve metrieken, uitlijningsnauwkeurigheid en δ-BLEU.

'Dit toont de effectiviteit van de data-augmentatiepijplijn aan. Augmentatie stelt ons ook in staat om een ​​concurrerend systeem voor Engels-Italiaans te trainen, dat geen gesuperviseerde data heeft.'

De auteurs concluderen door op te merken dat het succes van het model moet worden gezien in de bredere context van de strijd van NLP om de toewijzing van geslachten in een vertaalmethode te rationaliseren. Ze merken op dat dit nog steeds een open probleem is.

Hoewel de onderzoekers van mening zijn dat de verkregen resultaten niet volledig voldoen aan de doelstelling om genderneutrale vertalingen op entiteitsniveau te genereren en/of genderverschillen weg te nemen, geloven ze wel dat het werk een 'krachtig instrument' is voor toekomstig onderzoek naar een van de meest uitdagende gebieden van machinale vertaling.

 

* Mijn omzetting van de inline-citaten van de auteurs naar hyperlinks

Eerste publicatie dinsdag 8 oktober 2024

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd van onderzoeksinhoud bij Metaphysic.ai.
Persoonlijke site: martinanderson.ai
Contact: [e-mail beveiligd]
Twitter: @manders_ai