Τεχνητή νοημοσύνη
Η Λύση της Apple για τη Μετάφραση των Φυλοποιημένων Γλωσσών

Η Apple δημοσίευσε πρόσφατα ένα έγγραφο, σε συνεργασία με το USC, που εξετάζει τις μεθόδους του machine learning που χρησιμοποιούνται για να δώσουν στους χρήστες του λειτουργικού συστήματος iOS18 περισσότερες επιλογές σχετικά με το φύλο κατά τη μετάφραση.

Στο iOS18, οι χρήστες μπορούν να επιλέξουν εναλλακτικές προτάσεις φύλου για μια μεταφρασμένη λέξη στην εφαρμογή Translate. Source: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios
Αν και τα προβλήματα που αντιμετωπίζονται στη δουλειά (η οποία η Apple έχει ανακοινώσει εδώ) ασχολούνται, σε κάποιο βαθμό, με τις τρέχουσες επίκαιρες συζητήσεις γύρω από τις ορισμούς του φύλου, επικεντρώνονται σε ένα πολύ παλαιότερο πρόβλημα: το γεγονός ότι 84 από τις 229 γνωστές γλώσσες στον κόσμο χρησιμοποιούν ένα φυλοποιημένο σύστημα φύλου.

Οι κόκκινες κουκκίδες υποδεικνύουν γλώσσες που χρησιμοποιούν ένα φυλοποιημένο σύστημα φύλου. Source: https://wals.info/feature/31A#map
Εξαιρετικά, η αγγλική γλώσσα ανήκει στην κατηγορία του φύλου, επειδή αναθέτει αρσενικά ή θηλυκά ενικώδη αντωνύμια.
Αντίθετα, όλες οι Ρομανικές γλώσσες (συμπεριλαμβανομένων περισσότερων από μισό δισεκατομμύριο ομιλητών της ισπανικής) – και πολλές άλλες δημοφιλείς γλώσσες, όπως η ρωσική – απαιτούν συμφωνία φύλου με τρόπους που αναγκάζουν τα συστήματα μετάφρασης να αντιμετωπίσουν την ανάθεση φύλου στη γλώσσα.
Το νέο έγγραφο εικονογραφεί αυτό, παρατηρώντας όλες τις πιθανές ισπανικές μεταφράσεις της πρότασης Ο γραμματέας ήταν θυμωμένος με τον αρχηγό:

Από το νέο έγγραφο, ένα παράδειγμα των πιθανών αναθέσεων φύλου στην πρόταση ‘Ο γραμματέας ήταν θυμωμένος με τον αρχηγό’, μεταφράζοντας από τα αγγλικά στα ισπανικά. Source: https://arxiv.org/pdf/2407.20438
Η αμελή μετάφραση είναι μακράν ανεπαρκής για μεγαλύτερα κείμενα, τα οποία μπορεί να καθορίσουν το φύλο στην αρχή (‘Αυτός’, ‘Αυτή’, κ.λπ.) και στη συνέχεια να μην αναφέρουν το φύλο ξανά. Παρόλα αυτά, η μετάφραση πρέπει να θυμάται την ανατεθειμένη ανάθεση φύλου του συμμετέχοντα καθ’ όλη τη διάρκεια του κειμένου.
Αυτό μπορεί να είναι προκλητικό για προσεγγίσεις που αντιμετωπίζουν τις μεταφράσεις σε διακριτά τμήματα, και να κινδυνεύουν να χάσουν την ανάθεση φύλου καθ’ όλη τη διάρκεια του περιεχομένου.
Χειρότερα, τα συστήματα που παρέχουν εναλλακτικές μεταφράσεις για προκατειλημμένες αναθέσεις φύλου δεν μπορούν να το κάνουν αδιακρίτως, δηλαδή, με την απλή αντικατάσταση του ουσιαστικού φύλου, αλλά πρέπει να διασφαλίσουν ότι όλα τα άλλα μέρη της γλώσσας συμφωνούν με το αναθεωρημένο ουσιαστικό φύλου.
Σε αυτό το παράδειγμα από το έγγραφο Apple/USC, βλέπουμε ότι αν και ο Γραμματέας έχει ανατεθεί αρσενικό φύλο, το ενικώδες παρελθόν ήταν έχει μείνει θηλυκό (estaba):

Οι βίαιες αντικαταστάσεις φύλου μπορούν να παραμελήσουν την απαραίτητη συμφωνία φύλου. Σε αυτό το παράδειγμα, η λέξη ‘enojada’ πρέπει να είναι ‘enojado’, για να συμφωνήσει με το αρσενικό ‘El secretario’.
Ένα σύστημα μετάφρασης πρέπει επίσης να αντιμετωπίσει τις ιδιομορφίες των συγκεκριμένων γλωσσών σχετικά με το φύλο. Όπως σημειώνει το έγγραφο, το αντωνύμιο Εγώ είναι φυλοποιημένο στη γλώσσα Χίντι, το οποίο παρέχει ένα ασυνήθιστο σημάδι για το φύλο.
Ζητήματα Φύλου
Στο νέο έγγραφο, με τίτλο Γенνώντας Εναλλακτικές Φύλου στη Μηχανική Μετάφραση, οι ερευνητές της Apple και του USC προτείνουν μια ημι-εποπτευόμενη μέθοδο για τη μετατροπή αμφίβολων οντοτήτων σε μια σειρά από εναλλακτικές οντότητες.
Το σύστημα, το οποίο χρησιμοποιήθηκε για να ενημερώσει τη μετάφραση από την εφαρμογή Translate της Apple στο iOS18, κατασκευάζει ένα σχήμα γλώσσας με τη χρήση μεγάλων μοντέλων γλώσσας (LLMs) και με παραμετροποίηση προ-εκπαιδευμένων ανοιχτών μοντέλων μετάφρασης.
Τα αποτελέσματα από τις μεταφράσεις αυτών των συστημάτων εκπαιδεύτηκαν στη συνέχεια σε μια αρχιτεκτονική που περιέχει δομές φύλου – ομάδες φράσεων που περιέχουν διαφορετικές μορφές ποικίλων φυλοποιημένων ουσιαστικών που αντιπροσωπεύουν την ίδια οντότητα.
Το έγγραφο αναφέρει*:
‘Οι προκαταλήψεις φύλου που υπάρχουν στα δεδομένα εκπαίδευσης είναι γνωστό ότι διαρρέουν στα συστήματα επεξεργασίας φυσικής γλώσσας (NLP), με αποτέλεσμα τη διάδοση και πιθανή ενίσχυση αυτών των προκαταλήψεων. Αυτές οι προκαταλήψεις είναι συχνά επίσης η ρίζα των σφαλμάτων.
‘Ένα σύστημα μετάφρασης (MT) μπορεί, για παράδειγμα, να μεταφράσει τον γιατρό στο ισπανικό όρο médico (αρσενικό) αντί για médica (θηλυκό), με δεδομένο το εισαγόμενο “Ο γιατρός ζήτησε από την νοσοκόμα να τη βοηθήσει στην επέμβαση”.
‘Για να αποφευχθεί η ανάθεση λάθος φύλου, τα συστήματα MT πρέπει να αποσαφηνίσουν το φύλο μέσω του контекστού. Όταν το σωστό φύλο δεν μπορεί να καθοριστεί μέσω του контекστού, η παροχή πολλών εναλλακτικών μεταφράσεων που καλύπτουν όλες τις έγκυρες επιλογές φύλου είναι μια λογική προσέγγιση.’
Η προσέγγιση που οι ερευνητές φτάνουν αποτελεσματικά μετατρέπει μια μετάφραση από ένα単ό token σε einen χρήστη-ελεγχόμενο πίνακα.
(Αν και το έγγραφο δεν το αναφέρει, αυτό ανοίγει την πιθανότητα, είτε στην εφαρμογή Translate της Apple είτε σε παρόμοιες πύλες που προσφέρουν υπηρεσίες μετάφρασης, για τις επιλογές του χρήστη να αναχθούν σε μεταγενέστερες επαναλήψεις του μοντέλου)
Το μοντέλο που ανέπτυξαν οι ερευνητές της Apple και του USC αξιολογήθηκε στο GATE και MT-GenEval σύνολα δοκιμών. Το GATE περιέχει προτάσεις πηγής με έως και 3 αμφίβολες οντότητες φύλου, ενώ το MT-GenEval περιέχει υλικό όπου το φύλο δεν μπορεί να推定θεί, το οποίο, όπως αναφέρουν οι συγγραφείς, βοηθά στην κατανόηση του πότε δεν πρέπει να προσφέρονται εναλλακτικές επιλογές φύλου στο χρήστη.
Σε ambos περιπτώσεις, τα σύνολα δοκιμών έπρεπε να ανακοπεί, για να ευθυγραμμισθούν με τους στόχους του έργου.
Για να εκπαιδεύσουν το σύστημα, οι ερευνητές βασίστηκαν σε einen νέο αυτοματοποιημένο αλγόριθμο αύξησης δεδομένων, σε αντίθεση με τα ανωτέρω σύνολα δοκιμών, τα οποία είχαν ανακοπεί από ανθρώπους.
Τα συνεισφέρουσες βάσεις δεδομένων για την επιμέλεια της Apple ήταν Europarl· WikiTitles· και WikiMatrix. Το σώμα δεδομένων χωρίστηκε σε G-Tag (με 12.000 προτάσεις), που περιλαμβάνει προτάσεις με κεφαλαιωτικά ονόματα για όλες τις οντότητες, μαζί με μια αμφίβολη σήμανση· και G-Trans (με 50.000 προτάσεις), που περιέχει αμφίβολες οντότητες φύλου και συμφωνίες φύλου.
Οι συγγραφείς ισχυρίζονται:
‘До της καλύτερης γνώσης μας, αυτό είναι το πρώτο μεγάλης κλίμακας σώμα που περιέχει αμφιβολίες φύλου και πώς επηρεάζουν τις φυλοποιημένες μορφές στη μετάφραση.’
Τα δεδομένα και τα διαφορετικά δεδομένα για το έργο έχουν γίνει διαθέσιμα στο GitHub. Τα δεδομένα περιλαμβάνουν πέντε ζευγάρια γλωσσών, αντιπαραβάλλοντας τα αγγλικά με τα ρωσικά, γερμανικά, γαλλικά, πορτογαλικά και ισπανικά.
Οι συγγραφείς χρησιμοποίησαν eine προηγούμενη προσέγγιση από το 2019 για να ενδυναμώσουν το μοντέλο με την ικανότητα να εξόδου συμφωνιών φύλου, εκπαιδεύοντας με κέρδος εντροπίας και einen επιπλέον συντελεστή συμφωνίας.
Για τη διαδικασία αύξησης δεδομένων, οι συγγραφείς απέρριψαν τις παραδοσιακές κανόνες μεθόδους υπέρ μιας δεδομενοκεντρικής προσέγγισης, παραμετροποιώντας einen προ-εκπαιδευμένο γλωσσικό μοντέλο BERT στο σώμα δεδομένων G-Tag.
Διπλή Ματιά
Για περιπτώσεις όπου ανιχνεύονται αμφίβολες οντότητες φύλου, οι ερευνητές της Apple και του USC εξέτασαν δύο μεθόδους – την παραμετροποίηση προ-εκπαιδευμένων γλωσσικών μοντέλων και τη χρήση LLMs.
Σχετικά με την πρώτη μέθοδο, το έγγραφο αναφέρει:
‘Παραμετροποιούμε einen προ-εκπαιδευμένο MT μοντέλο M σε einen διγλωσσικό κείμενο που εξαγεται από το σώμα δεδομένων G-Trans. Οι προτάσεις πηγής αυτού του διγλωσσικού κειμένου περιέχουν αμφίβολες οντότητες που σημειώνονται ως αρσενικές ή θηλυκές χρησιμοποιώντας <M>/<F> ετικέτες, και η μεταφρασμένη πρόταση έχει σωστές συμφωνίες φύλου με βάση τις ετικέτες φύλου.’

Εικόνα του σχήματος για την εξαγωγή διγλωσσικού κειμένου από το σώμα δεδομένων G-Trans.
Στην εικόνα πάνω, βλέπουμε την παραμετροποιημένη πρόταση στη μέση στήλη, και την επιθυμητή έξοδο στη δεξιά στήλη, με την υποκείμενη λογική που εικονογραφείται πάνω.
Για αυτήν την προσέγγιση, οι συγγραφείς χρησιμοποίησαν eine μεθοδολογία lattice rescoring από eine προηγούμενη εργασία του 2020. Για να διασφαλίσουν ότι μόνο το στόχο τομέα (φύλο) αντιμετωπίστηκε, χρησιμοποιήθηκε eine περιορισμένη αναζήτηση δέσμης ως φίλτρο.
Για την προσέγγιση LLM, οι συγγραφείς ανέπτυξαν eine στρατηγική που χρησιμοποιεί einen LLM ως редактор, επαναγράφοντας τις μεταφράσεις που παρέχονται για να αναθέσουν φύλο.

Ο LLM προτρέπει χρησιμοποιώντας einen σε-περιεχόμενο παράδειγμα για να αναθέσει φύλο.
Με τα αποτελέσματα και από τις δύο προσεγγίσεις, το μοντέλο ήταν στη συνέχεια παραμετροποιημένο για να ταξινομήσει τις προτάσεις πηγής ως συντονισμένες (που υποδεικνύεται με ‘1’ στο σχήμα παρακάτω) ή μη-συντονισμένες (που υποδεικνύεται με ‘2’ παρακάτω).

Σχήμα για την συνένωση των αποτελεσμάτων από τις δύο προσεγγίσεις.
Δεδομένα και Δοκιμές
Ο αμφίβολη οντότητα ανιχνευτής που χρησιμοποιήθηκε για το έργο ανέπτυξε την παραμετροποίηση του μοντέλου xlm-roberta-large της Facebook AI, χρησιμοποιώντας μετασχηματιστές. Για αυτό, το συνδυασμένο G-Tag χρησιμοποιήθηκε σε όλα τα πέντε ζευγάρια γλωσσών.
Στην πρώτη από τις δύο προσεγγίσεις, το M2M 1.2B μοντέλο εκπαιδεύτηκε στο Fairseq, μαζί με διγλωσσικά δεδομένα από το σώμα δεδομένων G-Trans, με συμφωνίες φύλου που παρέχονται από το Wiktionary.
Για την προσέγγιση LLM, οι συγγραφείς χρησιμοποίησαν το GPT-3.5-turbo. Για τη συμφωνία δομών φύλου, το xlm-roberta-large χρησιμοποιήθηκε ξανά, αυτή τη φορά με συμφωνίες φύλου που εξαγονται από το G-Trans.
Οι μετρήσεις για την αξιολόγηση των εναλλακτικών, δομής (με ακρίβεια και ανακληση), και συντονιστική ακρίβεια.
Αν και οι δύο πρώτοι από αυτούς είναι αυτοεξηγηματικοί, η συντονιστική ακρίβεια μετρά το ποσοστό των εξόδων δομών φύλου που συμμορφώνονται με την γνωστή σωστή ταυτότητα πηγής, και χρησιμοποιεί τη μεθοδολογία δ-BLEU, σύμφωνα με τη μεθοδολογία για το MT-GenEval.
Παρακάτω είναι τα αποτελέσματα για τη διαδικασία αύξησης δεδομένων:

Αποτελέσματα από τις δοκιμές αύξησης δεδομένων. Οι βέλειες προς τα πάνω υποδεικνύουν ‘υψηλότερο-το-καλύτερο’, οι βέλειες προς τα κάτω ‘χαμηλότερο-το-καλύτερο’.
Εδώ οι συγγραφείς σχολιάζουν*:
‘Και τα M2M και GPT εκτελούνται κυρίως στο ίδιο επίπεδο με την εξαίρεση του αγγλο-ρωσικού, όπου το GPT επιτυγχάνει πολύ χαμηλότερη ανακληση εναλλακτικών (58.7 σε σύγκριση με 89.3). Η ποιότητα των γεννημένων δομών φύλου είναι καλύτερη για το GPT στα αγγλο-γερμανικά και αγγλο-πορτογαλικά και καλύτερη για το M2M στα αγγλο-ισπανικά και αγγλο-ρωσικά, όπως φαίνεται από τις μετρήσεις δομής.
‘Σημειώστε ότι δεν έχουμε κανένα δεδομένο G-Trans για τα αγγλο-ιταλικά, οπότε τα αποτελέσματα του μοντέλου M2M και η συντονιστική ακρίβεια στα αγγλο-ιταλικά οφείλονται αποκλειστικά στη γενίκευση zero-shot των μοντέλων M2M και XLM.’
Οι ερευνητές σύγκριναν επίσης την απόδοση του συστήματος αύξησης δεδομένων, μέσω του M2M, με το σύστημα GATE σε επίπεδο πρότασης, στο GATE.

Η διαδικασία αύξησης δεδομένων της Apple/USC αντιμετωπίζει το σύστημα GATE σε επίπεδο πρότασης.
Εδώ το έγγραφο αναφέρει:
‘Βλέπουμε σημαντικές βελτιώσεις στην ανακληση με το κόστος μιας σχετικά μικρής υποβάθμισης στην ακρίβεια (εκτός από τα αγγλο-ιταλικά). Το σύστημά μας είναι σε θέση να ξεπεράσει το GATE στη μετρική F.5 που προτείνουν, σε όλα τα 3 ζευγάρια γλωσσών.’
Τέλος, οι ερευνητές εκπαιδεύτηκαν ποικίλα ‘βαριά’ πολυγλωσσικά μοντέλα σε βαριά διγλωσσικά. Τα συνεισφέρουσες βάσεις δεδομένων ήταν WikiMatrix, WikiTitles, Multi-UN, NewsCommentary, και Tilde.
Δύο επιπλέον ‘βαριά’ μοντέλα εκπαιδεύτηκαν, ένα που ενσωματώνει το σώμα δεδομένων G-Trans με την προκαταρκτική ετικέτα <φύλο>, η οποία χρησιμοποιήθηκε ως η εποπτευόμενη βάση· και ένα τρίτο, που ενσωματώνει δομές φύλου και συμφωνίες (στο μικρότερο τοπικό μοντέλο,既然 ότι η χρήση των υπηρεσιών API του GPT θα ήταν πολύ ακριβή για αυτόν τον σκοπό).
Τα μοντέλα δοκιμάστηκαν με το FloRes σύνολο δοκιμών του 2022.

Τελικά μοντέλα μετάφρασης δοκιμάστηκαν (P = ακρίβεια, R = ανακληση).
Το έγγραφο συνοψίζει αυτά τα αποτελέσματα:
‘Το ‘βαριά’ μοντέλο δεν μπορεί να γεννήσει εναλλακτικές και δείχνει μια τεράστια προκατάληψη προς τη δημιουργία αρσενικών μορφών (δ-BLEU που κυμαίνεται από 5.3 έως 12.5 πόντους).
‘Αυτή η προκατάληψη μειώνεται σημαντικά από τη βάση εποπτείας. Το μοντέλο που εκπαιδεύτηκε με δεδομένα αύξησης επιτυγχάνει ακόμη καλύτερη απόδοση σε σχέση με τις μετρήσεις εναλλακτικών, συντονιστική ακρίβεια και δ-BLEU.
‘Αυτό δείχνει την αποτελεσματικότητα της διαδικασίας αύξησης δεδομένων. Τα δεδομένα αύξησης επιτρέπουν επίσης να εκπαιδευτεί ένα ανταγωνιστικό σύστημα για τα αγγλο-ιταλικά, τα οποία λείπουν από εποπτευμένα δεδομένα.’
Οι ερευνητές καταλήγουν αναφέροντας ότι η επιτυχία του μοντέλου πρέπει να θεωρηθεί στο ευρύτερο πλαίσιο της προσπάθειας της NLP να ρacionalize την ανάθεση φύλου σε μια μέθοδο μετάφρασης· και σημειώνουν ότι αυτό παραμένει ένα ανοιχτό πρόβλημα.
Αν και οι ερευνητές θεωρούν ότι τα αποτελέσματα που επιτύχθηκαν δεν επιτύχουν πλήρως τον στόχο της γεννήσεως οντοτήτων-επίπεδου φύλου-αδιάφορων μεταφράσεων και/ή αποσαφήνισης σχετικά με το φύλο, πιστεύουν ότι η δουλειά είναι ένα ‘δυνατό όργανο’ για μελλοντικές εξερευνήσεις σε ένα από τα πιο προκλητικά πεδία της μηχανικής μετάφρασης.
* Η μετατροπή των εσωτερικών αναφορών των συγγραφέων σε υπερσύνδεσμους
Πρώτη δημοσίευση την Τρίτη, 8 Οκτωβρίου 2024












