Inteligența artificială
Soluția Apple pentru traducerea limbilor de gen

Apple tocmai a publicat o lucrare, în colaborare cu USC, care explorează metodele de învățare automată utilizate pentru a oferi utilizatorilor sistemului său de operare iOS18 mai multe opțiuni despre gen atunci când vine vorba de traducere.

În iOS18, utilizatorii pot selecta sugestii alternative de gen pentru un cuvânt tradus în aplicația nativă Traducere. Sursa: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios
Deși problemele abordate în lucrare (pe care Apple a anunțat-o aici) se implică, într-o anumită măsură, în dezbaterile actuale de actualitate în jurul definițiilor genului, se concentrează pe o problemă mult mai veche: faptul că 84 din cele 229 de limbi cunoscute în lume utilizați un sistem de gen bazat pe sex.

Punctele roșii indică limbile care utilizează un sistem de gen bazat pe sex. Sursa: https://wals.info/feature/31A#map
În mod surprinzător, limba engleză se încadrează în categoria bazată pe sex, deoarece atribuie pronume singular masculin sau feminin.
Prin contrast, toate Limbi romanice (inclusiv peste o jumătate de miliard vorbitorii de spaniolă) – și mai multe alte limbi populare, cum ar fi rusa – necesită acordul de gen în moduri care forțează sistemele de traducere să abordeze atribuirea sexului în limbă.
Noua lucrare ilustrează acest lucru prin observarea tuturor traducerilor posibile în spaniolă ale propoziției Secretara era supărată pe șef:

Din noua lucrare, un exemplu de posibile atribuiri de gen în propoziția „Secretara a fost supărată pe șeful”, tradusă din engleză în spaniolă. Sursa: https://arxiv.org/pdf/2407.20438
Traducerea naivă este departe de a fi suficientă pentru textele mai lungi, care pot stabili genul la început ('El', 'Ea', etc.) și ulterior să nu se mai facă referire la gen. Cu toate acestea, traducerea trebuie să rețină sexul alocat participantului pe tot cuprinsul textului.
Acest lucru poate fi o provocare pentru abordările bazate pe simboluri care abordează traducerile în bucăți discrete și riscă să piardă contextul de gen atribuit pe toată durata conținutului.
Mai rău, sistemele care oferă traduceri alternative pentru atribuirile de gen părtinitoare nu pot face acest lucru fără discernământ, adică prin simpla înlocuire a substantivului de gen, ci trebuie să se asigure că toate celelalte părți ale limbajului sunt de acord cu substantivul de gen schimbat.
În acest exemplu din lucrarea Apple/USC, vedem totuși asta Secretar i s-a atribuit un gen masculin, trecutul singular a fost a fost lăsat ca feminin (Am fost):

Substituțiile de gen prin forță brută pot neglija acordul necesar de gen. În acest exemplu, cuvântul „enojada” ar trebui să fie „enojado”, pentru a se acorda cu masculinul „El secretario”.
Un sistem de traducere trebuie să facă față, de asemenea, excentricităților anumitor limbi în ceea ce privește genul. După cum arată lucrarea, pronumele I este de gen în hindi, ceea ce oferă un indiciu neobișnuit despre gen.
Probleme de gen
În hârtie nouă, intitulat Generarea de alternative de gen în traducerea automată, cercetătorii Apple și USC propun a semisupravegheata metodă de a converti entitățile ambigue de gen într-o serie de alternative la nivel de entitate.
Sistemul, care a fost folosit pentru a informa traducerea din aplicația Apple Translate în iOS18, construiește o schemă de limbă atât prin utilizarea modelelor de limbaj mari (LLM), cât și prin reglaj fin modele de traducere automată open source pre-instruite.
Rezultatele din traducerile din aceste sisteme au fost apoi instruite într-o arhitectură care conține structurile de gen – grupuri de fraze care conțin diverse forme de substantive de gen variat reprezentând aceeași entitate.
Lucrarea precizează*:
„Se știe că prejudecățile de gen prezente în datele trenurilor se transformă în sistemele de procesare a limbajului natural (NLP), ceea ce duce la diseminare și amplificare potențială a acelor prejudecăți. Astfel de prejudecăți sunt adesea și cauza principală a erorilor.
„Un sistem de traducere automată (MT) ar putea, de exemplu, traduce doctor în termenul spaniol médico (masculin) în loc de médica (feminin), având în vedere intrarea „Doctorul a cerut asistentei să o ajute în procedură”.
„Pentru a evita prescrierea atribuirii greșite a genului, sistemele de traducere automată trebuie să dezambiguizeze genul prin context. Atunci când genul corect nu poate fi determinat prin context, furnizarea mai multor alternative de traducere care să acopere toate opțiunile valide de gen este o abordare rezonabilă.”
Abordarea la care ajung cercetătorii transformă în mod eficient o traducere dintr-un singur token într-o matrice controlată de utilizator.
(Deși lucrarea nu menționează acest lucru, acest lucru deschide posibilitatea, fie în Apple Translate, fie în portaluri similare care oferă servicii de traducere, ca alegerile utilizatorilor să fie reintroduse în iterațiile ulterioare ale modelului)
Modelul dezvoltat de Apple și USC a fost evaluat pe POARTĂ și MT-GenEval seturi de testare. GATE conține propoziții sursă cu până la 3 entități ambigue în funcție de gen, în timp ce MT-GenEval conține materiale în care genul nu poate fi dedus, ceea ce, spun autorii, ajută la înțelegerea când opțiunile alternative de gen nu ar trebui oferite utilizatorului.
În ambele cazuri, seturile de testare au trebuit să fie re-adnotate, pentru a se alinia cu obiectivele proiectului.
Pentru a antrena sistemul, cercetătorii s-au bazat pe o nouă automată marirea datelor algoritm, spre deosebire de seturile de teste menționate mai sus, care au fost adnotate de oameni.
Seturi de date care au contribuit la curatarea Apple au fost Europarl; WikiTitluriŞi WikiMatrix. Corpurile au fost împărțite în G-Tag (cu 12,000 de propoziții), cuprinzând propoziții cu cuvinte de cap pentru toate entitățile, împreună cu o adnotare ambiguă de gen; şi G-Trans (cu 50,000 de propoziții), care conțin entități ambigue și aliniamente de gen.
Autorii afirmă:
„Din câte știm, acesta este primul corpus la scară largă care conține ambiguități de gen și modul în care acestea afectează formele de gen în traducere.”
Seturi de date și date diverse pentru proiect au fost puse la dispoziție pe GitHub. Datele conțin cinci perechi de limbi, punând engleza față de rusă, germană, franceză, portugheză și spaniolă.
Autorii au folosit pârghie o abordare prealabilă din 2019 pentru a dota modelul cu capacitatea de a produce aliniere de gen, instruire cu entropia încrucișată de pe și un supliment pierderea alinierii.
Pentru rutina de creștere a datelor, autorii au evitat tradiționalul metoda bazata pe regulis în favoarea unei abordări centrate pe date, reglajul fin a OARET model de limbaj pre-antrenat pe setul de date G-Tag.
Dublă luare
Pentru cazurile în care sunt detectate entități de gen ambigue, Apple și USC au explorat două metode – reglarea fină a modelelor de limbaj pre-instruite și utilizarea LLM-urilor.
În ceea ce privește prima metodă, lucrarea precizează:
„Reglam fin un model MT M pre-antrenat pe un bitext extras din setul de date G-Trans. Propozițiile sursă ale acestui bi-text conțin entități ambigue etichetate ca masculin sau feminin folosind / etichete, iar traducerea țintă are inflexiunile de gen corecte, având în vedere etichetele de gen.

O ilustrare a schemei pentru extragerea bi-textului din setul de date G-Trans.
În imaginea de mai sus, vedem textul ajustat în coloana de jos din mijloc și rezultatul dorit în coloana din dreapta, cu rațiunea de bază ilustrată mai sus.
Pentru această abordare, autorii au folosit a rescoring latice metoda din an lucrare la începutul anului 2020. Pentru a vă asigura că a fost abordat doar domeniul țintă (sex), a căutarea fasciculului constrâns a fost folosit ca filtru.
Pentru abordarea LLM, autorii au conceput o strategie care folosește un LLM ca editor, prin rescrierea traducerilor furnizate pentru a oferi sarcini de gen.

LLM este solicitat folosind un exemplu în context pentru a atribui genul.
Cu rezultatele ambelor abordări concatenate, modelul a fost ulterior ajustat pentru a clasifica token-urile sursă ca aliniat (indicat prin „1” în schema de mai jos) sau nealiniat (indicat prin „2” mai jos).

O schemă pentru concatenarea rezultatelor ambelor abordări.
Date și teste
entitate ambiguă Detectorul utilizat pentru proiect a fost dezvoltat prin reglarea fină a inteligenței artificiale a Facebook xlm-roberta-large model, folosind transformatoare. Pentru aceasta, G-Tag combinat a fost folosit în toate cele cinci perechi de limbi.
În prima dintre cele două abordări menționate mai sus, cea M2M 1.2B modelul a fost antrenat Fairseq, împreună cu datele bi-text din setul de date G-Trans, cu inflexiuni de gen furnizate de Wiktionary.
Pentru metoda LLM, autorii au folosit GPT-3.5-turbo. Pentru alinierea structurilor de gen s-a folosit din nou xlm-roberta-large, de data aceasta cu aliniamente de gen extrase din G-Trans.
Metrici pentru evaluarea alternativelor, structura (cu precizie și rechemare), Şi precizia de aliniere.
Deși primele două dintre acestea se explică de la sine, acuratețea alinierii măsoară procentul de structuri de gen de ieșire care se conformează identității sursei corecte cunoscute și utilizează metoda δ-BLEU, în conformitate cu metodologia pentru MT-GenEval.
Mai jos sunt rezultatele pentru conducta de creștere a datelor:

Rezultatele testelor de augmentare a datelor. Săgețile în sus indică „cu cât mai mult, cu atât mai bine”, cele în jos „cu cât mai puțin, cu atât mai bine”.
Aici autorii comentează*:
„Atât M2M, cât și GPT funcționează în cea mai mare parte la egalitate, cu excepția engleză-rusă, unde GPT realizează o reamintire a alternativelor mult mai scăzută (58.7 comparativ cu 89.3). Calitatea structurilor de gen generate este mai bună pentru GPT pe engleză-germană și engleză-portugheză și mai bună pentru M2M pe engleză-spaniolă și engleză-rusă, așa cum se poate vedea din metricile structurii.
„Rețineți că nu avem date G-Trans pentru engleză-italiană, așa că rezultatele modelului M2M și precizia de aliniere pe engleză-italiană se datorează exclusiv generalizării zero-shot a Modele M2M și XLM
Cercetătorii au comparat, de asemenea, performanța sistemului de augmentare a datelor, prin intermediul M2M, cu cea a sistemului de rescriere a genului la nivel de propoziție al GATE, conform termenilor declarați de GATE.

Conducta de creștere a datelor Apple/USC s-a înfruntat cu metoda GATE la nivel de propoziție.
Aici lucrarea spune:
„Observăm îmbunătățiri semnificative ale reamintirii cu prețul unei degradări relativ mici a preciziei (cu excepția engleză-italiană). Sistemul nostru este capabil să depășească GATE în ceea ce privește metrica F.5 propusă de aceștia pentru toate cele 3 perechi de limbi.”
În cele din urmă, autorii au antrenat diverse modele multilingve „vanilla” în bi-text vanilie. Seturile de date care au contribuit au fost WikiMatrix, WikiTitluri, Multi-ONU, Comentariu de știri și Tildă.
Au fost antrenate două modele de vanilie suplimentare, unul încorporând setul de date G-Trans cu eticheta prefixată , care a fost utilizată ca bază supervizată; și o a treia, care încorporează structura și alinierile de gen (pe modelul local mai mic, deoarece utilizarea serviciilor bazate pe API ale GPT ar fi fost foarte costisitoare în acest scop).
Modelele au fost testate față de 2022 FloRes set de date.

Modele de traducere automată de vanilie de la capăt la capăt testate (P = precizie, R = rechemare).
Lucrarea rezumă aceste rezultate:
„Modelul vanilie nu poate genera alternative și arată o părtinire uriașă față de generarea de forme masculine (δ-BLEU variind de la 5.3 la 12.5 puncte).
„Această părtinire este redusă foarte mult de valoarea de bază supravegheată. Modelul antrenat pe date augmentate reduce și mai mult distorsiunea și obține cea mai bună performanță în ceea ce privește valorile alternative, precizia de aliniere și δ-BLEU.
„Acest lucru demonstrează eficacitatea canalului de augmentare a datelor. Datele augmentate ne permit, de asemenea, să antrenăm un sistem competitiv pentru limba engleză-italiană, căruia îi lipsesc date supravegheate.”
Autorii concluzionează prin a menționa că succesul modelului trebuie considerat în contextul mai larg al dificultăților NLP de a raționaliza atribuirea de gen într-o metodă de traducere; și observă că aceasta rămâne o problemă deschisă.
Deși cercetătorii consideră că rezultatele obținute nu ating pe deplin obiectivul de a genera traduceri neutre din punct de vedere al genului la nivel de entitate și/sau dezambiguizări în ceea ce privește genul, ei consideră că lucrarea este un „instrument puternic” pentru explorări viitoare într-una dintre cele mai dificile domenii ale traducerii automate.
* Conversia mea a citărilor inline ale autorilor în hyperlinkuri
Publicat prima dată marți, 8 octombrie 2024