Følg os

Kunstig intelligens

Apples løsning til at oversætte kønsbestemte sprog

mm
Et foto af Rosetta-stenen, med en kvinde ude af fokus i baggrunden, der kigger på stenen. Kilde: https://smarthistory.org/the-rosetta-stone/

Apple har netop udgivet en artikel i samarbejde med USC, der udforsker de maskinlæringsmetoder, der anvendes til at give brugere af deres iOS18-operativsystem flere valgmuligheder med hensyn til køn, når det kommer til oversættelse.

I iOS18 kan brugere vælge alternative kønsforslag til et oversat ord i den oprindelige Translate-app. Kilde: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

I iOS18 kan brugere vælge alternative kønsforslag til et oversat ord i den oprindelige Translate-app. Kilde: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

Selvom de problemer, der blev løst i arbejdet (som Apple har annonceret link.) engagerer sig til en vis grad i aktuelle aktuelle debatter omkring definitioner af køn, centrerer det sig om et langt ældre problem: det faktum, at 84 ud af de 229 kendte sprog i verden bruge et kønsbaseret kønssystem.

De røde prikker angiver sprog, der bruger et kønsbaseret kønssystem. Kilde: https://wals.info/feature/31A#map

De røde prikker angiver sprog, der bruger et kønsbaseret kønssystem. Kilde: https://wals.info/feature/31A#map

Overraskende nok det engelske sprog falder ind under den kønsbaserede kategori, fordi den tildeler maskuline eller feminine entalspronominer.

Derimod alle Romanske sprog (inklusive over en halv milliard Spansktalende) – og flere andre populære sprog, såsom russisk – kræver kønsoverenskomst på måder, der tvinger oversættelsessystemer til at håndtere kønsbestemmelser på sprog.

Det nye papir illustrerer dette ved at observere alle mulige spanske oversættelser af sætningen Sekretæren var vred på chefen:

Fra det nye papir, et eksempel på de potentielle kønstildelinger i sætningen 'Sekretæren var vred på chefen', oversat fra engelsk til spansk. Kilde: https://arxiv.org/pdf/2407.20438

Fra den nye artikel, et eksempel på de potentielle kønstildelinger i sætningen 'Sekretæren var vred på chefen', oversat fra engelsk til spansk. Kilde: https://arxiv.org/pdf/2407.20438

Naiv oversættelse er langt fra tilstrækkelig til længere tekster, som kan fastslå køn i starten ('Han', 'Hun'osv.) og derefter ikke henvise til køn igen. Ikke desto mindre skal oversættelsen huske det tildelte køn på deltageren gennem hele teksten.

Dette kan være udfordrende for token-baserede tilgange, der adresserer oversættelser i diskrete bidder og risikerer at miste den tildelte kønskontekst gennem hele indholdets varighed.

Hvad værre er, systemer, der leverer alternative oversættelser til skæve kønstildelinger, kan ikke gøre dette vilkårligt, dvs. ved blot at erstatte kønssubstantivet, men skal sikre, at alle andre dele af sproget stemmer overens med det ændrede kønsnavneord.

I dette eksempel fra Apple/USC-papiret ser vi det dog Sekretær er blevet tildelt et mandligt køn, entalsfortiden var er blevet efterladt som feminin (Jeg var):

Brute-force kønssubstitutioner kan forsømme nødvendig kønsoverenskomst. I dette eksempel skal ordet 'enojada' være 'enojado', for at stemme overens med det maskuline 'El secretario'.

Brutal kønssubstitution kan ignorere nødvendig kønsoverensstemmelse. I dette eksempel skal ordet 'enojada' være 'enojado' for at stemme overens med det maskuline 'El secretario'.

Et oversættelsessystem skal også klare særlige sprogs excentriciteter med hensyn til køn. Som papiret påpeger, er pronomenet I er kønsbestemt på hindi, hvilket giver et usædvanligt fingerpeg om køn.

Kønsproblemer

I nyt papir, med titlen Generering af kønsalternativer i maskinoversættelse, forskerne fra Apple og USC foreslår en semi-overvåget metode til at konvertere køns-tvetydige enheder til en række alternativer på enhedsniveau.

Systemet, som blev brugt til at informere oversættelse fra Apple Translate-appen i iOS18, konstruerer et sprogskema ved både brug af store sprogmodeller (LLM'er) og ved at finjustering forudtrænede open source maskinoversættelsesmodeller.

Resultaterne fra oversættelser fra disse systemer blev derefter trænet til en arkitektur indeholdende kønsstrukturer – grupper af sætninger, der indeholder forskellige former for forskellige kønsbestemte navneord, der repræsenterer den samme enhed.

I avisen står der*:

"Kønsbias, der er til stede i togdata, er kendt for at bløde ind i systemer til naturlig sprogbehandling (NLP), hvilket resulterer i spredning og potentiel forstærkning af disse skævheder. Sådanne skævheder er ofte også årsagen til fejl.

»Et maskinoversættelsessystem (MT) kan f.eks. oversæt læge til det spanske udtryk médico (maskulint) i stedet for médica (feminint), givet inputtet "Lægen bad sygeplejersken om at hjælpe hende i proceduren".

"For at undgå at foreskrive forkert kønstildeling, er MT-systemer nødt til at tydeliggøre køn gennem kontekst. Når det korrekte køn ikke kan bestemmes gennem kontekst, er det en rimelig tilgang at tilbyde flere oversættelsesalternativer, der dækker alle gyldige kønsvalg."

Den tilgang, som forskerne kommer frem til, forvandler effektivt en oversættelse fra et enkelt token til et brugerstyret array.

(Selvom avisen ikke nævner det, åbner dette mulighed for, enten i Apple Translate eller i lignende portaler, der tilbyder oversættelsestjenester, for brugervalg at blive ført tilbage til senere iterationer af modellen)

Den model, Apple og USC udviklede, blev evalueret på GATE og MT-GenEval testsæt. GATE indeholder kildesætninger med op til 3 køns-tvetydige entiteter, mens MT-GenEval indeholder materiale, hvor køn ikke kan udledes, hvilket, ifølge forfatterne, hjælper med at forstå, hvornår alternative kønsmuligheder ikke bør tilbydes brugeren.

I begge tilfælde skulle testsættene genannoteres for at tilpasse sig projektets mål.

For at træne systemet stolede forskerne på en ny automatik dataforøgelse algoritme, i modsætning til de førnævnte testsæt, som blev kommenteret af mennesker.

Bidragende datasæt til Apple-kurationen var Europarl; WikiTitlerOg WikiMatrix. Korpuserne blev opdelt i G-tag (med 12,000 sætninger), omfattende sætninger med hovedord for alle enheder, sammen med en flertydig kønsnotering; og G-Trans (med 50,000 sætninger), der indeholder køns-tvetydige entiteter og kønstilpasninger.

Forfatterne hævder:

"Så vidt vi ved, er dette det første store korpus, der indeholder kønsfejl og hvordan de påvirker kønsbestemte former i oversættelsen."

Datasæt og diverse data til projektet har været gjort tilgængelig på GitHub. Dataene indeholder fem sprogpar, der sætter engelsk mod russisk, tysk, fransk, portugisisk og spansk.

Forfatterne udnyttede en forudgående tilgang fra 2019 for at udstyre modellen med evnen til at udskrive kønstilpasninger, træning med krydsentropi off og en ekstra justering tab.

For dataforøgelsesrutinen undgik forfatterne traditionelle regelbaseret metodegår ind for en datacentreret tilgang, finjustering af en BERTI forudtrænet sprogmodel på G-Tag-datasættet.

Dobbelt-Take

I tilfælde, hvor der opdages tvetydige kønsentiteter, udforskede Apple og USC to metoder – finjustering af forudtrænede sprogmodeller og brug af LLM'er.

Med hensyn til den første metode hedder det i papiret:

'Vi finjusterer en fortrænet MT-model M på en bitekst udtrukket fra G-Trans-datasættet. Kildesætningerne i denne bi-tekst indeholder tvetydige enheder, der er mærket som maskulin eller feminin vha. / tags, og måloversættelsen har korrekte kønsbøjninger givet kønstaggene.

En illustration af skemaet til udtrækning af bi-tekst fra G-Trans-datasættet.

En illustration af skemaet til udtrækning af bi-tekst fra G-Trans-datasættet.

På billedet ovenfor ser vi den finjusterede tekst i nederste midterste kolonne, og det ønskede output i højre kolonne, med den bagvedliggende begrundelse illustreret ovenfor.

Til denne tilgang brugte forfatterne en gitter rescoring metode fra en tidligere 2020 arbejde. For at sikre, at kun måldomænet (kønnet) blev adresseret, a begrænset strålesøgning blev brugt som filter.

For LLM-tilgangen udtænkte forfatterne en strategi, der bruger en LLM som redaktør ved at omskrive de leverede oversættelser for at give kønsopgaver.

LLM'en bliver bedt om ved hjælp af et konteksteksempel for at tildele køn.

LLM'en bliver bedt om ved hjælp af et konteksteksempel for at tildele køn.

Med resultater fra begge tilgange sammenkædet, blev modellen efterfølgende finjusteret til at klassificere kildetokens som justeret (angivet med '1' i skemaet nedenfor) eller ikke-afstemte (angivet med '2' nedenfor).

Et skema for sammenkædning af resultater fra begge tilgange.

Et skema for sammenkædning af resultater fra begge tilgange.

Data og test

tvetydig enhed Detektoren, der blev brugt til projektet, blev udviklet ved at finjustere Facebooks kunstige intelligens.  xlm-roberta-stor model, ved hjælp af transformers. Til dette blev det kombinerede G-tag brugt på tværs af alle fem sprogpar.

I den første af de førnævnte to tilgange er M2M 1.2B model blev trænet på Fairseq, sammen med bi-tekstdata fra G-Trans-datasættet, med kønsbøjninger leveret af Wiktionary.

Til LLM-metoden brugte forfatterne GPT-3.5-turbo. Til justering af kønsstrukturer blev xlm-roberta-large igen brugt, denne gang med kønsjusteringer ekstraheret fra G-Trans.

Metrik til evaluering af alternativer, struktur (med præcision og tilbagekaldelse), Og justering nøjagtighed.

Selvom de to første af disse er selvforklarende, måler tilpasningsnøjagtighed procentdelen af ​​output kønsstrukturer, der er i overensstemmelse med den kendte korrekte kildeidentitet, og bruger δ-BLEU metode, i overensstemmelse med metodikken for MT-GenEval.

Nedenfor er resultaterne for dataforøgelsespipeline:

Resultater fra dataforøgelsestestene. Opadgående pile angiver 'højere-jo-bedre', nedadgående 'lavere-jo-bedre'.

Resultater fra dataaugmenteringstestene. Pile opad indikerer 'højere, jo bedre', pile nedad 'lavere, jo bedre'.

Her kommenterer forfatterne*:

»Både M2M og GPT klarer sig for det meste på niveau med undtagelse af engelsk-russisk, hvor GPT opnår meget lavere tilbagekaldelse af alternativer (58.7 sammenlignet med 89.3). Kvaliteten af ​​genererede kønsstrukturer er bedre for GPT på engelsk-tysk og engelsk-portugisisk og bedre for M2M på engelsk-spansk og engelsk-russisk, som det kan ses af strukturmålingerne.

'Bemærk, at vi ikke har nogen G-Trans-data for engelsk-italiensk, så resultaterne af M2M-modellen og alignment-nøjagtigheden på engelsk-italiensk skyldes udelukkende nul-shot generalisering af M2M og XLM modeller. '

Forskerne sammenlignede også dataaugmenteringssystemets ydeevne via M2M med GATEs kønsomskrivning på sætningsniveau på GATEs egne angivne vilkår.

Apple/USC-dataforøgelsespipelinen stilles op mod GATE-sætningsniveaumetoden.

Apple/USC-dataforøgelsespipelinen stilles op mod GATE-sætningsniveaumetoden.

Her står der i avisen:

"Vi ser betydelige forbedringer i genkendelse på bekostning af en relativt lille forringelse af præcisionen (undtagen engelsk-italiensk). Vores system er i stand til at overgå GATE på deres foreslåede F.5-måling på alle 3 sprogpar."

Endelig trænede forfatterne forskellige 'vanilje' flersprogede modeller i vanilje bi-tekst. De bidragende datasæt var WikiMatrix, WikiTitler, Multi-FN, Nyhedskommentarog tilde.

To yderligere vaniljemodeller blev trænet, den ene inkorporerede G-Trans-datasættet med det præfikserede tag , som blev anvendt som det overvågede udgangspunkt; og en tredje, der inkorporerer kønsstruktur og -tilpasninger (på den mindre lokale model, da brugen af ​​GPT's API-baserede tjenester ville have været meget dyrt til dette formål).

Modellerne blev testet mod 2022 FloRes datasæt.

End-to-end vanilje maskinoversættelsesmodeller testet (P = præcision, R = tilbagekaldelse).

End-to-end vanilje maskinoversættelsesmodeller testet (P = præcision, R = tilbagekaldelse).

Papiret opsummerer disse resultater:

'Vaniljemodellen kan ikke generere alternativer og viser en enorm bias mod at generere maskuline former (δ-BLEU spænder fra 5.3 til 12.5 point).

'Denne skævhed er stærkt reduceret af den overvågede baseline. Modellen trænet på forstærkede data reducerer bias yderligere og opnår den bedste ydeevne med hensyn til alternative metrikker, justeringsnøjagtighed og δ-BLEU.

"Dette viser effektiviteten af ​​dataaugmenteringspipelinen. Augmented data giver os også mulighed for at træne et konkurrencedygtigt system til engelsk-italiensk, som mangler overvågede data."

Forfatterne konkluderer med at bemærke, at modellens succes skal ses i den bredere kontekst af NLP's kamp for at rationalisere kønstildeling i en oversættelsesmetode; og de bemærker, at dette fortsat er et åbent problem.

Selvom forskerne mener, at de opnåede resultater ikke fuldt ud opfylder målet om at generere kønsneutrale oversættelser og/eller flertydighedsopdelinger på entitetsniveau, mener de, at arbejdet er et 'kraftfuldt instrument' til fremtidige udforskninger af et af de mest udfordrende områder inden for maskinoversættelse.

 

* Min konvertering af forfatternes indlejrede citater til hyperlinks

Først offentliggjort tirsdag den 8. oktober 2024