Artificiell intelligens
Apples lösning för att översätta könsbaserade språk

Apple har just publicerat en artikel, i samarbete med USC, som utforskar maskininlärningsmetoderna som används för att ge användarna av dess iOS18-operativsystem fler valmöjligheter när det gäller kön när det kommer till översättning.

I iOS18 kan användare välja alternativa könsförslag för ett översatt ord i den inbyggda Translate-appen. Källa: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios
Även om de problem som hanteras i arbetet (som Apple har meddelat här.) engagerar sig, till viss del, i aktuella aktuella debatter kring definitioner av kön, den fokuserar på ett mycket äldre problem: det faktum att 84 av de 229 kända språken i världen använda ett könsbaserat könssystem.

De röda prickarna indikerar språk som använder ett könsbaserat könssystem. Källa: https://wals.info/feature/31A#map
Överraskande nog det engelska språket faller i den könsbaserade kategorin, eftersom den tilldelar maskulina eller feminina singulära pronomen.
Däremot alla Romanska språk (inklusive över en halv miljard Spansktalande) – och flera andra populära språk, som ryska – kräver könsöverenskommelser på ett sätt som tvingar översättningssystem att ta itu med könstilldelning på språk.
Den nya uppsatsen illustrerar detta genom att observera alla möjliga spanska översättningar av meningen Sekreteraren var arg på chefen:

Från den nya tidningen, ett exempel på potentiella könstilldelningar i meningen "Sekreteraren var arg på chefen", översättning från engelska till spanska. Källa: https://arxiv.org/pdf/2407.20438
Naiv översättning är långt ifrån tillräcklig för längre texter, vilket kan fastställa kön i början ('han', 'Hon', etc.) och därefter inte hänvisa till kön igen. Icke desto mindre måste översättningen komma ihåg det tilldelade könet på deltagaren genom hela texten.
Detta kan vara utmanande för tokenbaserade tillvägagångssätt som adresserar översättningar i diskreta bitar och riskerar att förlora den tilldelade könskontexten under hela innehållets varaktighet.
Vad värre är, system som tillhandahåller alternativa översättningar för partiska könstilldelningar kan inte göra detta urskillningslöst, dvs genom att bara ersätta könssubstantivet, utan måste se till att alla andra delar av språket överensstämmer med det ändrade könssubstantivet.
I det här exemplet från Apple/USC-tidningen ser vi det dock Sekreterare har tilldelats ett manligt kön, det singulära förflutna var har lämnats som feminin (var):

Brute-force könssubstitutioner kan försumma nödvändig könsöverenskommelse. I det här exemplet bör ordet 'enojada' vara 'enojado', för att stämma överens med det maskulina 'El secretario'.
Ett översättningssystem måste också hantera vissa språks excentriciteter när det gäller kön. Som tidningen påpekar, pronomenet I är könsbestämd på hindi, vilket ger en ovanlig ledtråd till kön.
Könsproblem
I nytt papper, med titeln Generera genusalternativ i maskinöversättning, forskarna från Apple och USC föreslår en halvövervakad metod för att omvandla köns-tvetydiga enheter till en rad alternativ på enhetsnivå.
Systemet, som användes för att informera översättning från Apple Translate-appen i iOS18, konstruerar ett språkschema genom att både använda stora språkmodeller (LLM) och av finjustering förutbildade maskinöversättningsmodeller med öppen källkod.
Resultaten från översättningar från dessa system tränades sedan in i en arkitektur innehållande könsstrukturer – grupper av fraser som innehåller olika former av substantiv med olika kön som representerar samma enhet.
Tidningen säger*:
"Könsfördomar som finns i tågdata är kända för att blöda in i system för naturlig språkbehandling (NLP), vilket resulterar i spridning och potentiell förstärkning av dessa fördomar. Sådana fördomar är ofta också grundorsaken till fel.
"Ett maskinöversättningssystem (MT) kan t.ex. översätt läkare till den spanska termen médico (maskulint) istället för médica (kvinnligt), med tanke på input "Läkaren bad sjuksköterskan att hjälpa henne i proceduren".
”För att undvika att föreskriva fel könstilldelning måste MT-systemen disambiguera kön genom sitt sammanhang. När det korrekta könet inte kan fastställas genom sammanhang, är det en rimlig metod att tillhandahålla flera översättningsalternativ som täcker alla giltiga könsval.'
Tillvägagångssättet som forskarna kommer fram till förvandlar effektivt en översättning från en enda token till en användarkontrollerad array.
(Även om det inte nämns i tidningen, öppnar detta för möjligheten, antingen i Apple Translate eller i liknande portaler som erbjuder översättningstjänster, för användarens val att återkopplas till senare iterationer av modellen)
Den modell som Apple och USC utvecklade utvärderades på GATE och MT-GenEval testset. GATE innehåller källmeningar med upp till 3 köns-tvetydiga entiteter, medan MT-GenEval innehåller material där kön inte kan härledas, vilket, enligt författarna, hjälper till att förstå när alternativa könsalternativ inte bör erbjudas användaren.
I båda fallen var testuppsättningarna tvungna att kommenteras på nytt för att passa in i projektets syften.
För att träna systemet förlitade sig forskarna på en ny automat dataförstärkning algoritm, i motsats till de tidigare nämnda testseten, som kommenterades av människor.
Bidragande datamängder för Apple-kurationen var Europarl; WikiTitlar; Och WikiMatrix. Korporna delades upp i G-tagg (med 12,000 XNUMX meningar), som omfattar meningar med huvudord för alla enheter, tillsammans med en tvetydig könsanteckning; och G-Trans (med 50,000 XNUMX meningar), som innehåller köns-tvetydiga enheter och könsanpassningar.
Författarna hävdar:
"Såvitt vi vet är detta den första storskaliga korpusen som innehåller könsmässiga oklarheter och hur de påverkar könsformer i översättningen."
Dataset och diverse data för projektet har varit tillgänglig på GitHub. Uppgifterna innehåller fem språkpar som ställer engelska mot ryska, tyska, franska, portugisiska och spanska.
Författarna utnyttjade ett tidigare tillvägagångssätt från 2019 för att förse modellen med förmågan att producera könsanpassningar, träning med kors entropi förlust och en ytterligare inriktningsförlust.
För dataökningsrutinen undvek författarna traditionella regelbaserad metodär för ett datacentrerat tillvägagångssätt, finjustering a BERTI förtränad språkmodell på G-Tag-datauppsättningen.
Double-Take
För fall där tvetydiga könsenheter upptäcks, undersökte Apple och USC två metoder – finjustering av förtränade språkmodeller och användning av LLM.
När det gäller den första metoden sägs det i tidningen:
"Vi finjusterar en förtränad MT-modell M på en bitext extraherad från G-Trans-datauppsättningen. Källmeningarna i denna bitext innehåller tvetydiga enheter taggade som maskulina eller feminina med / taggar, och målöversättningen har korrekta könsböjningar givet genustaggarna.'

En illustration av schemat för att extrahera bi-text från G-Trans-datauppsättningen.
I bilden ovan ser vi den finjusterade texten i den nedre mittkolumnen, och önskad utdata i högerkolumnen, med den bakomliggande motiveringen illustrerad ovan.
För detta tillvägagångssätt använde författarna en galleråterställning metod från en tidigare 2020 arbete. För att säkerställa att endast måldomänen (kön) adresserades, a begränsad strålsökning användes som ett filter.
För LLM-metoden utarbetade författarna en strategi som använder en LLM som redaktör, genom att skriva om de medföljande översättningarna för att ge könstilldelningar.

LLM uppmanas med hjälp av ett exempel i sammanhanget för att tilldela kön.
Med resultat från båda tillvägagångssätten sammanlänkade finjusterades modellen sedan för att klassificera källsymboler som Justerat (anges med '1' i schemat nedan) eller alliansfri (anges med '2' nedan).

Ett schema för sammanlänkning av resultat från båda tillvägagångssätten.
Data och tester
Ocuco-landskapet tvetydig enhet detektor som användes för projektet utvecklades genom att finjustera Facebook AI:s xlm-roberta-stor modell, med hjälp av transformatorer. För detta användes den kombinerade G-taggen över alla fem språkparen.
I den första av de ovan nämnda två tillvägagångssätten, M2M 1.2B modell tränades på Fairseq, tillsammans med bitextdata från G-Trans-dataset, med könsböjningar som tillhandahålls av Wiktionary.
För LLM-metoden använde författarna GPT-3.5-turbo. För anpassning av könsstrukturer användes återigen xlm-roberta-large, denna gång med könsanpassningar extraherade från G-Trans.
Mått för utvärdering av alternativ, struktur (med precision och minns), Och inriktningsnoggrannhet.
Även om de två första av dessa är självförklarande, mäter anpassningsnoggrannheten procentandelen av utgående könsstrukturer som överensstämmer med den kända korrekta källidentiteten, och använder δ-BLEU-metod, i enlighet med metodiken för MT-GenEval.
Nedan är resultaten för pipeline för dataförstärkning:

Resultat från dataförstärkningstesterna. Uppåtpilar indikerar "högre-de-bättre", nedåt "lägre-de-bättre".
Här kommenterar författarna*:
"Både M2M och GPT presterar mestadels i paritet med undantag för engelsk-ryska, där GPT uppnår mycket lägre återkallelse av alternativ (58.7 jämfört med 89.3). Kvaliteten på genererade könsstrukturer är bättre för GPT på engelsk-tyska och engelsk-portugisiska och bättre för M2M på engelska-spanska och engelsk-ryska, vilket framgår av strukturmåtten.
'Observera att vi inte har några G-Trans-data för engelsk-italienska, så resultaten av M2M-modellen och anpassningsnoggrannheten på engelsk-italienska beror enbart på noll-shot generalisering av M2M och XLM modeller.'
Forskarna jämförde också dataförstärkningssystemets prestanda, via M2M, med GATEs genus-omskrivare på meningsnivå, på GATEs egna angivna villkor.

Apple/USC-dataförstärkningspipelinen ställdes mot GATE-metoden på meningsnivå.
Här står det i tidningen:
"Vi ser betydande förbättringar av återkallelse till priset av relativt liten försämring av precision (förutom engelsk-italienska). Vårt system kan överträffa GATE på deras föreslagna F.5-mått på alla tre språkparen.'
Slutligen tränade författarna olika "vanilj" flerspråkiga modeller till vanilj bi-text. De bidragande datamängderna var WikiMatrix, WikiTitlar, Flera FN, Nyhetskommentaroch Tilde.
Ytterligare två vaniljmodeller tränades, en som inkorporerade G-Trans-datauppsättningen med prefixet tag , som användes som den övervakade baslinjen; och en tredje, som inkluderar könsstruktur och anpassningar (på den mindre lokala modellen, eftersom det skulle ha varit mycket dyrt att använda GPT:s API-baserade tjänster för detta ändamål).
Modellerna testades mot 2022 FloRes datasätt.

Testade maskinöversättningsmodeller för vanilj till slut (P = precision, R = återkallelse).
Uppsatsen sammanfattar dessa resultat:
"Vaniljmodellen kan inte generera alternativ och visar en enorm fördom mot att generera maskulina former (δ-BLEU som sträcker sig från 5.3 till 12.5 poäng).
"Denna snedvridning reduceras avsevärt av den övervakade baslinjen. Modellen tränad på utökade data minskar biasen ytterligare och erhåller den bästa prestandan när det gäller alternativa mätvärden, inriktningsnoggrannhet och δ-BLEU.
"Detta visar effektiviteten i pipeline för dataförstärkning. Förstärkt data tillåter oss också att träna ett konkurrenskraftigt system för engelska-italienska som saknar övervakad data.'
Författarna avslutar med att notera att modellens framgång måste ses i ett bredare sammanhang av NLP:s kamp för att rationalisera könstilldelning i en översättningsmetod; och de noterar att detta fortfarande är ett öppet problem.
Även om forskarna anser att de erhållna resultaten inte fullt ut uppnår målet att skapa könsneutrala översättningar på enhetsnivå och/eller disambigueringar angående kön, menar de att arbetet är ett "kraftigt instrument" för framtida utforskningar av en av de mest utmanande områden inom maskinöversättning.
* Min konvertering av författarnas inline-citat till hyperlänkar
Första gången publicerad tisdagen den 8 oktober 2024