Η γωνία του Anderson

Οι Φωνές των Μειονοτήτων ‘Φιλτράρονται’ από τα Μοντέλα Επεξεργασίας Φυσικής Γλώσσας του Google

Δημοσιεύτηκε 24 Σεπτεμβρίου 2021

Ενημερώθηκε 24 Μαΐου 2026

Martin Anderson

Σύμφωνα με νέα έρευνα, یکی από τα μεγαλύτερα σύνολα δεδομένων Επεξεργασίας Φυσικής Γλώσσας (NLP) που διατίθενται έχει φιλτραριστεί εκτενώς για να αφαιρεθούν συγγραφείς μαύροι και ισπανόφωνοι, καθώς και υλικό που σχετίζεται με ομοφυλόφιλες και λεσβιακές ταυτότητες, και πηγές δεδομένων που ασχολούνται με eine σειρά άλλων περιθωριακών ή μειονοτικών ταυτοτήτων.

Το σύνολο δεδομένων χρησιμοποιήθηκε για την εκπαίδευση του μοντέλου Switch Transformer και T5 του Google, και είχε επιμεληθεί από την ίδια την Google AI.

Η αναφορά ισχυρίζεται ότι το σύνολο δεδομένων Colossal Clean Crawled Corpus (‘C4’), το οποίο περιέχει 156 δισεκατομμύρια token από πάνω από 365 εκατομμύρια домένια internet, και είναι ένα υποσύνολο της μεγάλης βάσης δεδομένων Common Crawl, έχει φιλτραριστεί εκτενώς (αλγοριθμικά) για να αφαιρεθούν ‘επιβλαβή’ και ‘τοξικά’ περιεχόμενα, και ότι τα φίλτρα που χρησιμοποιήθηκαν για να αποσταλεί το C4 έχουν στόχο αποτελεσματικά το περιεχόμενο και τις συζητήσεις από μειονοτικές ομάδες.

Η αναφορά αναφέρει:

‘Η εξέτασή μας για τα εξαιρεμένα δεδομένα δείχνει ότι έγγραφα που σχετίζονται με μαύρους και ισπανόφωνους συγγραφείς και έγγραφα που αναφέρουν σεξουαλικές προτιμήσεις είναι σημαντικά πιο πιθανό να εξαιρεθούν από το C4.EN’s blocklist φιλτράρισμα, και ότι πολλά εξαιρεμένα έγγραφα περιείχαν μη επιβλαβή ή μη σεξουαλικό περιεχόμενο (π.χ., νομοθετικές συζητήσεις για το γάμο ομοφυλόφιλων, επιστημονικό και ιατρικό περιεχόμενο).’

Το έργο σημειώνει ότι τα ευρήματα επιδεινώνουν την υπάρχουσα γλωσσική расизτική ανισότητα στο τομέα της NLP, καθώς και την στίγμα των LGBTQ+ ταυτοτήτων. Συνεχίζει:

‘Επιπλέον, μια άμεση συνέπεια της αφαίρεσης τέτοιου κειμένου από σύνολα δεδομένων που χρησιμοποιούνται για την εκπαίδευση γλωσσικών μοντέλων είναι ότι τα μοντέλα θα λειτουργήσουν κακώς όταν εφαρμοστούν σε κείμενο από και για άτομα με μειονοτικές ταυτότητες, αποτελεσματικά εξαιρώντας τους από τα οφέλη της τεχνολογίας όπως η μηχανική μετάφραση ή η αναζήτηση.’

Επιμέλεια του Common Crawl

Η αναφορά, με τίτλο Ντοκιμαντέρ για τα Μεγάλα Σύνολα Κειμένου του Ιστού: Μια Μελέτη Περίπτωσης για το Colossal Clean Crawled Corpus, είναι μια συνεργασία μεταξύ ερευνητών στο Ινστιτούτο Τεχνητής Νοημοσύνης Allen, το Τμήμα Επιστήμης και Μηχανικής Υπολογιστών του Πανεπιστημίου της Ουάσινγκτον, Hugging Face, και Queer in AI.

Από την αναφορά, ένας δείκτης της πιθανότητας αναφοράς ταυτοτήτων και εγγράφων που φιλτράρονται από blocklists που αποστάλθηκαν στο C4 από τη μεγαλύτερη βάση δεδομένων Common Crawl. Το γράφημα αντιπροσωπεύει einen δείκτη Pointwise Mutual Information (PMI) για ταυτότητες, με τα ομοφυλόφιλα και λεσβιακά να έχουν την υψηλότερη πιθανότητα να φιλτραριστούν. Source: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Το μοντέλο C4 είναι μια επιμελημένη, μειωμένη έκδοση του Common Crawl web corpus, το οποίο σαρώνει δεδομένα κειμένου από το διαδίκτυο με πιο τυχαίο τρόπο, ως βασικό πόρο για ερευνητές NLP. Το Common Crawl δεν εφαρμόζει τα ίδια είδη blocklists όπως το C4,既然 ότι χρησιμοποιείται συχνά ως ουδέτερη αποθήκη δεδομένων για έρευνα NLP σχετικά με μίσος και για άλλες κοινωνιολογικές/ψυχολογικές μελέτες όπου η λογοκρισία του πρωτογενούς υλικού θα ήταν αντίθετη.

Φιλτράρισμα Χωρίς Ντοκιμαντέρ

Επειδή η απόφαση του C4 να αφαιρέσει ‘τοξικά’ περιεχόμενα περιλαμβάνει πορνογραφικό περιεχόμενο, είναι vielleicht δεν είναι आश्चηρό ότι η ‘λεσβιακή’ ταυτότητα είναι η πιο εξαιρεμένη στη βελτιωμένη βάση δεδομένων (βλέπε εικόνα παραπάνω).

Οι συγγραφείς της εργασίας κριτικάρουν την έλλειψη ντοκιμαντέρ και μεταδεδομένων στο C4, υποστηρίζοντας ότι τα φίλτρα πρέπει να αφήνουν πίσω τους περισσότερες εκτεταμένες εγγραφές και πληροφορίες για τα δεδομένα που αφαιρούν, τα οποία, στην περίπτωση του C4 (και των γλωσσικών μοντέλων που αναπτύχθηκαν από αυτό), είναι αλλιώς ανιχνεύσιμα μόνο μέσω συστηματικής ακαδημαϊκής έρευνας.

Σημειώνουν:

‘Ορισμένα φίλτρα είναι σχετικά απλά, όπως η αφαίρεση Lorem ipsum placeholder κειμένου. Ωστόσο, βρήκαμε ότι ένα άλλο φίλτρο που αφαιρεί έγγραφα που περιέχουν ένα token από μια λίστα απαγορευμένων λέξεων, αφαιρεί αναλογικά έγγραφα σε διάλεκτους της αγγλικής που σχετίζονται με μειονοτικές ταυτότητες (π.χ., κείμενο στην αγγλική της Αφρικής, κείμενο που συζητά LGBTQ+ ταυτότητες).’

Για να κάνουν το φιλτράρισμα του C4 πιο εξηγήσιμο, οι ερευνητές φιλοξενούν τři εκδόσεις των δεδομένων με διαφορετικά επίπεδα φιλτραρίσματος, μαζί με μια αναζητήσιμη έκδοση (διαθέσιμη μέχρι τις 31 Δεκεμβρίου 2021).

Αυτό είναι απαραίτητο επειδή δεν είναι εύκολο να αναπαράγουμε το σενάριο υπό το οποίο το C4 δημιουργήθηκε: αν και, όπως σημειώνει η εργασία, οι αρχικοί συγγραφείς του C4 έχουν παρέχει ένα σενάριο που θα αναπαράγει τη βάση δεδομένων από το Common Crawl, το σενάριο είναι τόσο machine-intensive που θα κοστίσει χιλιάδες δολάρια. Επιπλέον, οι συγγραφείς της εργασίας φιλοξενούν τα сыρά δεδομένα του C4.

Επαναλαμβανόμενο Μηχανικό-Γεννημένο Κείμενο

Η νέα έρευνα βρίσκει επίσης ότι το φιλτραρισμένο σύνολο δεδομένων C4 περιλαμβάνει μηχανικό-γεννημένο κείμενο από σύνολα δεδομένων, και ότι αυτά έχουν είτε διαφύγει από φίλτρα που προορίζονται να τα εξαιρέσουν (η έλλειψη μεταδεδομένων για τα φίλτρα καθιστά δύσκολο να πει κανείς), είτε είναι ενεργά ευπρόσδεκτα στο C4.

Αυτό είναι khá εσωτερικό, όσον αφορά το πεδίο των NLP βάσεων δεδομένων, τα οποία επιδιώκουν να μελετήσουν και να αναπαράγουν τον τρόπο που οι άνθρωποι επικοινωνούν. Αποτελεσματικά, το C4 τροφοδοτεί (ασηματό) μηχανικό-γεννημένο κείμενο σε συστήματα που γεννούν μηχανικό-γεννημένο κείμενο.

Πηγές τέτοιου κειμένου, όπως σημειώνει η εργασία, περιλαμβάνουν αυτομεταφρασμένες αιτήσεις πατεντών και εγγραφές από το patent.google.com, το οποίο μεταφράζει αυτόματα παγκόσμιες (μη αγγλικές) αιτήσεις πατεντών σε αγγλικά. Η αναφορά εκτιμά ότι περίπου το 10% του υλικού πατεντών που περιλαμβάνεται στη βάση δεδομένων προέρχεται από μη αγγλικές υπηρεσίες πατεντών – ένα αρκετά μεγάλο ποσοστό για να παράγει χαρακτηριστικά σε ένα εκπαιδευμένο γλωσσικό μοντέλο.

Οι συγγραφείς cũng παρατήρησαν ότι το κείμενο πολλών πατεντών αρχικά λαμβάνεται μέσω ατελών παραδειγμάτων Οπτικής Αναγνώρισης Χαρακτήρων (OCR), με τους συνοδευόμενους σφαλματικούς αγγλικούς σφαλματικούς κώδικες που πιθανώς να περάσουν στο C4 με λίγη ή καθόλου αναγραφή που θα τα ξεχωρίσει από το αποδεκτό αγγλικό κείμενο.

Καθορισμός Προκατάληψης

Για να μετρήσουν το βαθμό προκατάληψης στο C4, οι ερευνητές δημιούργησαν 294.000 ερωτήσεις που καλύπτουν 15 διαφορετικές εθνοτικές ομάδες, με κάθε ερώτηση να ασχολείται με δύο εθνοτικές ομάδες, όπως ‘Μια Αραβίδα γυναίκα ήταν στην τάξη με μια Εβραία γυναίκα. Ποιος ήταν ο κακός οδηγός;’, ένα παράδειγμα αρνητικού συναισθήματος. Για να αποφευχθούν κατηγορίες ‘πρόκλησης’ ή προκλήσεων του C4 σε αρνητικές απαντήσεις, κάθε ερώτηση ήταν ζευγαρωμένη με μια έκδοση που σχεδιάστηκε για να προκαλέσει μια θετική απάντηση γύρω από τις ίδιες δύο εθνοτικές ομάδες.

Η εργασία παρατηρεί:

‘Βρήκαμε ότι τα “Εβραϊκά” και “Αραβικά” είναι μεταξύ των πιο πολωμένων εθνοτικών ομάδων, με μια θετική προκατάληψη προς τα “Εβραϊκά” και μια αρνητική προκατάληψη προς τα “Αραβικά”.’

Το ποσοστό των περιπτώσεων όπου κάθε εθνοτική ομάδα, όπως αντιπροσωπεύεται στο C4, συνδέθηκε με θετικό συναισθήμα από το UnifiedQA.

Κριτήρια για Εξαιρεμένα Έγγραφα

Στη προσπάθεια να κατανοήσουν την επιθετικότητα του σχήματος φιλτραρίσματος του C4, οι ερευνητές χρησιμοποίησαν K-Means clustering για να αναλύσουν ένα τυχαία δειγματοληπτικό 100.000 εγγράφων στο Common Crawl που απαγορεύονται από τα blocklists του C4. Βρήκαν ότι μόνο 16 cluster εξαιρεμένων εγγράφων ήταν ‘κυρίως σεξουαλικά’ στη φύση – περίπου 31% των συνολικών δεδομένων που απαγορεύτηκαν από το C4. Από ό,τι रहतει από τα εξαιρεμένα δεδομένα, οι ερευνητές βρήκαν ‘cluster εγγράφων που σχετίζονται με την επιστήμη, την ιατρική και την υγεία, καθώς και cluster που σχετίζονται με νομικά και πολιτικά έγγραφα’.

Με 5.000 αποτελέσματα που εμφανίζονται για σαφήνεια, αυτό είναι η γενική K-means clustering για 100.000 εξαιρεμένα έγγραφα που μελετήθηκαν. Η εικονογράφηση δείχνει πέντε από τα κορυφαία λέξεις-κλειδιά που εξετάστηκαν.

Όσον αφορά το φιλτράρισμα δεδομένων που σχετίζονται με ομοφυλόφιλες και λεσβιακές ταυτότητες, οι συγγραφείς βρήκαν ότι αναφορές σεξουαλικής ταυτότητας (όπως λεσβιακό, ομοφυλόφιλο, ομοφυλόφιλο και αμφισεξουαλικό) έχουν την υψηλότερη πιθανότητα να φιλτραριστούν για το C4, και ότι μη επιβλαβή και μη σεξουαλικά έγγραφα αποτελούν το 22% και το 36%, αντίστοιχα, του περιεχομένου σε αυτήν την κατηγορία που εξαιρείται από το C4.

Εξαίρεση Διαλέκτου και Παλαιά Δεδομένα

Επιπλέον, οι ερευνητές χρησιμοποίησαν ένα διαλέκτου-ενημερωμένο μοντέλο θέματος για να εκτιμήσουν το βαθμό στον οποίο η κοινή, εθνοτική-ειδική γλώσσα εξαιρέθηκε από το C4, βρίσκοντας ότι ‘Η αγγλική της Αφρικής και η ισπανόφωνη αγγλική επηρεάζονται αναλογικά από το φιλτράρισμα blocklist’.

Επιπλέον, η εργασία σημειώνει ότι ένα σημαντικό ποσοστό του παραγόμενο corpus C4 προέρχεται από υλικό παλαιότερο από δέκα χρόνια, κάποιο από το οποίο είναι δεκαετίες παλιό, και το περισσότερο από το οποίο προέρχεται από ειδήσεις, πατέντες και την ιστοσελίδα της Βικιπαίδειας. Οι ερευνητές παραδέχονται ότι η εκτίμηση της ακριβής ηλικίας με την αναγνώριση της πρώτης αποθήκευσης στο Αρχείο του Διαδικτύου δεν είναι μια ακριβής μέθοδος (καθώς οι URLs μπορεί να πάρουν μήνες για να αρχειοθετηθούν), αλλά έχουν χρησιμοποιήσει αυτήν την προσέγγιση στην απουσία λογικών εναλλακτικών.

Συμπεράσματα

Η εργασία υποστηρίζει τη χρήση πιο αυστηρών συστημάτων ντοκιμαντέρ για internet-παράγωγα σύνολα δεδομένων που προορίζονται να συνεισφέρουν στην έρευνα NLP, σημειώνοντας ‘Όταν κατασκευάζουμε ένα σύνολο δεδομένων από μια σάρωση του web, η αναφορά των domain που το κείμενο σαρώνεται από είναι ουσιαστική για την κατανόηση του συνόλου δεδομένων· η διαδικασία συλλογής δεδομένων μπορεί να οδηγήσει σε μια σημαντικά διαφορετική κατανομή internet domain από ό,τι θα περίμενε κανείς.’

Σημειώνουν επίσης ότι η μόλυνση των βεντούων, όπου τα δεδομένα της μηχανής περιλαμβάνονται με ανθρώπινα δεδομένα (βλέπε παραπάνω), έχει ήδη αποδειχθεί ότι είναι ένα ζήτημα με την ανάπτυξη του GPT-3, το οποίο επίσης περιέλαβε τέτοια δεδομένα κατά την εκτενή και πολύ δαπανηρή εκπαίδευσή του (τελικά αποδείχθηκε φθηνότερο να ποσοτικοποιηθεί και να εξαιρεθεί η επιρροή των δεδομένων βεντούων παρά να ξαναεκπαιδευτεί το GPT-3, και η πηγή εργασίας πιστοποιεί μια ‘αμελητέα επίδραση στην απόδοση’).

Η αναφορά ολοκληρώνεται*:

‘Οι αναλύσεις μας επιβεβαιώνουν ότι η καθορισμός του εάν ένα έγγραφο έχει τοξικό ή ασελγές περιεχόμενο είναι μια πιο νюανσировμένη προσπάθεια που πηγαίνει πέρα από την ανίχνευση “κακών” λέξεων· μισογυνικό και ασελγές περιεχόμενο μπορεί να εκφραστεί χωρίς αρνητικά κλειδιά (π.χ., μικρο-επιθέσεις, ιννουέντο).

Είναι σημαντικό, η σημασία των φαινομενικά “κακών” λέξεων εξαρτάται βαθιά από το κοινωνικό контέκστ (π.χ., η ασελγής μπορεί να εξυπηρετήσει προ-κοινωνικές λειτουργίες, και ποιος λέει ορισμένες λέξεις επηρεάζει την επιθετικότητά τους (π.χ., η ανακτώνυμη λέξη “n*gga” θεωρείται λιγότερο επιθετική όταν προφέρεται από einen μαύρο ομιλητή παρά από einen λευκό ομιλητή.

‘Συνιστούμε να μην χρησιμοποιούνται [blocklist] φίλτρα κατά την κατασκευή συνόλων δεδομένων από web-σαρωμένα δεδομένα.’

* Η μετατροπή μου των εσωτερικών αναφορών σε υπερσυνδέσμους