Connect with us

Ένας έλεγχος προκατάληψης με βάση το AI για άρθρα ειδήσεων, διαθέσιμος σε Python

Τεχνητή νοημοσύνη

Ένας έλεγχος προκατάληψης με βάση το AI για άρθρα ειδήσεων, διαθέσιμος σε Python

mm

Ερευνητές στον Καναδά, την Ινδία, την Κίνα και την Αυστραλία έχουν συνεργαστεί για να παράγουν ένα δωρεάν πακέτο Python που μπορεί να χρησιμοποιηθεί αποτελεσματικά για να εντοπίσει και να αντικαταστήσει ‘αδική language’ σε κείμενα ειδήσεων.

Το σύστημα, με τίτλο Dbias, χρησιμοποιεί διάφορες τεχνολογίες μηχανικής μάθησης και βάσεις δεδομένων για να αναπτύξει einen τριβάθμιτο κυκλικό εργοστάσιο που μπορεί να βελτιώσει προκατειλημμένα κείμενα μέχρι να επιστρέψει μια μη προκατειλημμένη ή τουλάχιστον πιο ουδέτερη εκδοχή.

Φορτωμένο γλωσσικό στοιχείο σε ένα απόσπασμα ειδήσεων που αναγνωρίζεται ως 'προκατειλημμένο' μετατρέπεται σε eine λιγότερο εκρηκτική εκδοχή από το Dbias. Source: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf

Φορτωμένο γλωσσικό στοιχείο σε ένα απόσπασμα ειδήσεων που αναγνωρίζεται ως ‘προκατειλημμένο’ μετατρέπεται σε eine λιγότερο εκρηκτική εκδοχή από το Dbias. Source: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf

Το σύστημα αντιπροσωπεύει einen επαναχρησιμοποιήσιμο και αυτοτελή αγωγό που μπορεί να εγκατασταθεί μέσω Pip από το Hugging Face και να ενσωματωθεί σε υφιστάμενα έργα ως συμπληρωματικός σταθμός, προσθήκη ή πρόσθετο.

Τον Απρίλιο, παρόμοια λειτουργικότητα που εφαρμόστηκε στο Google Docs υπέστη κριτική, όχι τουλάχιστον για την έλλειψη επεξεργάσιμότητας. Το Dbias, από την άλλη πλευρά, μπορεί να εκπαιδευτεί πιο επιλεκτικά σε οποιοδήποτε σώμα ειδήσεων που επιθυμεί ο τελικός χρήστης, διατηρώντας την ικανότητα να αναπτύξει εξατομικευμένες οδηγίες για την ισότητα.

Η κρίσιμη διαφορά είναι ότι ο αγωγός Dbias προορίζεται να μετατρέψει αυτόματα ‘φορτωμένα γλωσσικά στοιχεία’ (λέξεις που προσθέτουν ένα κρίσιμο στρώμα στην επικοινωνία των γεγονότων) σε ουδέτερη ή προzaϊκή γλώσσα, αντί να διδάξει τον χρήστη σε συνεχή βάση. Ουσιαστικά, ο τελικός χρήστης θα ορίσει εθικά φίλτρα και θα εκπαιδεύσει το σύστημα ανάλογα, ενώ στην προσέγγιση του Google Docs, το σύστημα είναι – επιχείρημα – που εκπαιδεύει τον χρήστη, με μονομερή τρόπο.

Εννοιολογική αρχιτεκτονική για τον αγωγό Dbias.

Εννοιολογική αρχιτεκτονική για τον αγωγό Dbias.

Σύμφωνα με τους ερευνητές, το Dbias είναι το πρώτο πραγματικά ρυθμιζόμενο πακέτο ανίχνευσης προκατάληψης, σε αντίθεση με τα προηγούμενα έργα που χαρακτηρίζονται από αυτή τη υποκατηγορία της επεξεργασίας φυσικής γλώσσας (NLP) μέχρι σήμερα.

Το νέο έγγραφο έχει τίτλο Μια προσέγγιση για την εξασφάλιση της ισότητας στα άρθρα ειδήσεων και προέρχεται από συντελεστές στο Πανεπιστήμιο του Τορόντο, το Toronto Metropolitan University, την Περιβαλλοντική Διαχείριση Πόρων στο Μπανγκαλόρ, την Ακαδημία Επιστημών DeepBlue στην Κίνα και το Πανεπιστήμιο του Σίδνεϋ.

Μέθοδος

Το πρώτο μοντάζ στο Dbias είναι Ανίχνευση προκατάληψης, το οποίο χρησιμοποιεί το πακέτο DistilBERT – μια υψηλά βελτιστοποιημένη εκδοχή του machine-intensive BERT της Google. Για το έργο, το DistilBERT ήταν εξευγενισμένο στο σύνολο δεδομένων MBIC.

Το MBIC αποτελείται από άρθρα ειδήσεων από διάφορες πηγές μέσων ενημέρωσης, συμπεριλαμβανομένων των Huffington Post, USA Today και MSNBC. Οι ερευνητές χρησιμοποίησαν την επεκταμένη εκδοχή του συνόλου δεδομένων.

Хотя τα αρχικά δεδομένα είχαν ανατεθεί σε εργάτες crowdsourcing (μια μέθοδος που υπέστη κριτική στα τέλη του 2021), οι ερευνητές του νέου εγγράφου μπόρεσαν να αναγνωρίσουν επιπλέον μη επισημασμένα περιστατικά προκατάληψης στο σύνολο δεδομένων και τα πρόσθεσαν χειροκίνητα. Τα αναγνωρισμένα περιστατικά προκατάληψης σχετίζονταν με φυλή, εκπαίδευση, εθνικότητα, γλώσσα, θρησκεία και φύλο.

Το επόμενο μοντάζ, Αναγνώριση προκατάληψης, χρησιμοποιεί Named Entity Recognition (NER) για να αναγνωρίσει προκατειλημμένες λέξεις από το εισαγόμενο κείμενο. Το έγγραφο αναφέρει:

‘Για παράδειγμα, οι ειδήσεις “Μην αγοράσετε την ψευδοεπιστημονική υπερβολή για τους торнадους και την κλιματική αλλαγή” έχουν ταξινομηθεί ως προκατειλημμένες από το προηγούμενο μοντάζ ανίχνευσης προκατάληψης, και το μοντάζ αναγνώρισης προκατάληψης μπορεί τώρα να αναγνωρίσει τον όρο “ψευδοεπιστημονική υπερβολή” ως μια προκατειλημμένη λέξη.’

Η NER δεν είναι ειδικά σχεδιασμένη για αυτή την εργασία, αλλά έχει χρησιμοποιηθεί παλαιότερα για την ανίχνευση προκατάληψης, ιδιαίτερα για ένα έργο του 2021 από το Πανεπιστήμιο του Ντάραμ στο Ηνωμένο Βασίλειο.

Για这一 στάδιο, οι ερευνητές χρησιμοποίησαν RoBERTa σε συνδυασμό με τον αγωγό SpaCy English Transformer NER.

Το επόμενο στάδιο, Μάσκα προκατάληψης, περιλαμβάνει ένα καινούριο πολλαπλό μάσκα των αναγνωρισμένων προκατειλημμένων λέξεων, το οποίο λειτουργεί ακολουθιακά σε περιπτώσεις πολλαπλών αναγνωρισμένων προκατειλημμένων λέξεων.

Φορτωμένη γλώσσα αντικαθίσταται με πρακτική γλώσσα στο τρίτο στάδιο του Dbias. Σημειώστε ότι 'μούθ' και 'χρήση' ισοδυναμούν με την ίδια ενέργεια, αν και το πρώτο θεωρείται επικριτικό.

Φορτωμένη γλώσσα αντικαθίσταται με πρακτική γλώσσα στο τρίτο στάδιο του Dbias. Σημειώστε ότι ‘μούθ’ και ‘χρήση’ ισοδυναμούν με την ίδια ενέργεια, αν και το πρώτο θεωρείται επικριτικό.

Όπως είναι απαραίτητο, η ανάδραση από αυτό το στάδιο θα σταλεί πίσω στην αρχή του αγωγού για περαιτέρω αξιολόγηση μέχρι να παραχθούν ένας αριθμός κατάλληλων εναλλακτικών φράσεων ή λέξεων. Αυτό το στάδιο χρησιμοποιεί Masked Language Modeling (MLM) κατά γραμμές που καθορίζονται από μια συνεργασία του 2021 που ηγήθηκε η Facebook Research.

Συνήθως, η εργασία MLM θα μασκάρει το 15% των λέξεων τυχαία, αλλά ο αγωγός Dbias λέει στη διαδικασία να λάβει τις αναγνωρισμένες προκατειλημμένες λέξεις ως είσοδο.

Η αρχιτεκτονική υλοποιήθηκε και εκπαιδεύτηκε στο Google Colab Pro σε ένα NVIDIA P100 με 24GB VRAM σε μια παρτίδα μεγέθους 16, χρησιμοποιώντας μόνο δύο ετικέτες (προκατειλημμένο και μη προκατειλημμένο).

Δοκιμές

Οι ερευνητές έκαναν δοκιμές του Dbias εναντίον πέντε συγκρίσιμων προσεγγίσεων: LG-TFIDF με Λογιστική Παλινδρόμηση και TfidfVectorizer (TFIDF) ενσωματώσεις λέξεων; LG-ELMO; MLP-ELMO (ένα feed-forward τεχνητό νευρωνικό δίκτυο που περιέχει ενσωματώσεις ELMO); BERT; και RoBERTa.

Οι μετρήσεις που χρησιμοποιήθηκαν για τις δοκιμές ήταν ακρίβεια (ACC), ακρίβεια (PREC), ανακληση (Rec) και ένα σκορ F1. Καθώς οι ερευνητές δεν είχαν γνώση κανενός υπάρχοντος συστήματος που θα μπορούσε να επιτύχει όλες τις τρεις εργασίες σε einen αγωγό, έγινε διαταγή για τα ανταγωνιστικά πλαίσια, αξιολογώντας μόνο τις κύριες εργασίες του Dbias – ανίχνευση και αναγνώριση προκατάληψης.

Αποτελέσματα από τις δοκιμές του Dbias.

Αποτελέσματα από τις δοκιμές του Dbias.

Το Dbias κατάφερε να υπερβεί τα αποτελέσματα από όλα τα ανταγωνιστικά πλαίσια, συμπεριλαμβανομένων εκείνων με einen βαρύτερο αποτύπωμα επεξεργασίας

Το έγγραφο αναφέρει:

‘Το αποτέλεσμα δείχνει επίσης ότι τα βαθιά νευρωνικά ενσωματώσεις, γενικά, μπορούν να υπερβούν τις παραδοσιακές μεθόδους ενσωματώσεων (π.χ. TFIDF) στην εργασία ταξινόμησης προκατάληψης. Αυτό φαίνεται από την καλύτερη απόδοση των βαθιάς νευρωνικής ενσωματώσεων (π.χ. ELMO) σε σύγκριση με την ενσωμάτωση TFIDF όταν χρησιμοποιείται με LG.

‘Αυτό είναι πιθανό επειδή οι βαθιά νευρωνικές ενσωματώσεις μπορούν να καταγράψουν καλύτερα το контέκστ των λέξεων στο κείμενο σε διάφορους контέκστ. Οι βαθιά νευρωνικές ενσωματώσεις και οι βαθιά νευρωνικές μεθόδους (MLP, BERT, RoBERTa) επίσης εκτελούνται καλύτερα από τις παραδοσιακές μεθόδους ML (LG).’

Οι ερευνητές σημειώνουν επίσης ότι οι μεθόδους Transformer υπερβαίνουν τις ανταγωνιστικές μεθόδους στην ανίχνευση προκατάληψης.

Μια επιπλέον δοκιμή περιελάμβανε μια σύγκριση μεταξύ του Dbias και διάφορων εκδόσεων του SpaCy Core Web, συμπεριλαμβανομένων των core-sm (μικρό), core-md (μεσαίο) και core-lg (μεγάλο). Το Dbias μπόρεσε να οδηγήσει την τάξη και σε αυτές τις δοκιμές:

Οι ερευνητές καταλήγουν στο συμπέρασμα ότι οι εργασίες αναγνώρισης προκατάληψης γενικά δείχνουν καλύτερη ακρίβεια σε μεγαλύτερα και πιο ακριβά μοντέλα, λόγω – όπως υποθέτουν – του αυξημένου αριθμού παραμέτρων και δεδομένων. Επίσης, σημειώνουν ότι η αποτελεσματικότητα των μελλοντικών εργασιών σε αυτό το πεδίο θα εξαρτηθεί από μεγαλύτερες προσπάθειες για την αναnotation υψηλής ποιότητας συνόλων δεδομένων.

Το δάσος και τα δέντρα

Ελπίζουμε ότι αυτό το είδος λεπτομερούς αναγνώρισης προκατάληψης θα ενσωματωθεί τελικά σε πλαισια που αναζητούν προκατάληψη και θα μπορούν να λάβουν μια λιγότερο μυωπική άποψη, λαμβάνοντας υπόψη ότι η επιλογή για την κάλυψη οποιασδήποτε ιστορίας είναι από μόνη της μια πράξη προκατάληψης που μπορεί να οδηγηθεί από περισσότερα από τα αναφερόμενα στατιστικά.

 

Πρώτη δημοσίευση 14ης Ιουλίου 2022.

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]