στέλεχος Ένας Έλεγχος μεροληψίας βάσει AI για άρθρα ειδήσεων, διαθέσιμος στην Python - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Ένας Έλεγχος προκατάληψης βάσει AI για άρθρα ειδήσεων, διαθέσιμος στην Python

mm
Ενημερώθηκε on

Ερευνητές από τον Καναδά, την Ινδία, την Κίνα και την Αυστραλία συνεργάστηκαν για να δημιουργήσουν ένα δωρεάν διαθέσιμο πακέτο Python που μπορεί να χρησιμοποιηθεί αποτελεσματικά για τον εντοπισμό και την αντικατάσταση της «άδικης γλώσσας» στο αντίγραφο ειδήσεων.

Το σύστημα, με τίτλο Dbias, χρησιμοποιεί διάφορες τεχνολογίες μηχανικής εκμάθησης και βάσεις δεδομένων για να αναπτύξει μια κυκλική ροή εργασίας τριών σταδίων που μπορεί να βελτιώσει μεροληπτικό κείμενο μέχρι να επιστρέψει μια μη προκατειλημμένη ή τουλάχιστον πιο ουδέτερη έκδοση.

Η φορτωμένη γλώσσα σε ένα απόσπασμα ειδήσεων που προσδιορίζεται ως "biased" μετατρέπεται σε μια λιγότερο εμπρηστική έκδοση από τον Dbias. Πηγή: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf

Η φορτωμένη γλώσσα σε ένα απόσπασμα ειδήσεων που προσδιορίζεται ως "biased" μετατρέπεται σε μια λιγότερο εμπρηστική έκδοση από τον Dbias. Πηγή: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf

Το σύστημα αντιπροσωπεύει έναν επαναχρησιμοποιήσιμο και αυτόνομο αγωγό που μπορεί να είναι εγκατεστημένο μέσω Pip από το Hugging Face και ενσωματώνεται σε υπάρχοντα έργα ως συμπληρωματικό στάδιο, πρόσθετο ή πρόσθετο.

Τον Απρίλιο, παρόμοια λειτουργικότητα εφαρμόστηκε στα Έγγραφα Google δέχτηκε κριτική, κυρίως για την έλλειψη δυνατότητας επεξεργασίας. Το Dbias, από την άλλη πλευρά, μπορεί να εκπαιδευτεί πιο επιλεκτικά σε οποιοδήποτε σύνολο ειδήσεων επιθυμεί ο τελικός χρήστης, διατηρώντας την ικανότητα να αναπτύσσει κατά παραγγελία κατευθυντήριες γραμμές δικαιοσύνης.

Η κρίσιμη διαφορά είναι ότι ο αγωγός Dbias προορίζεται να μετατρέψει αυτόματα τη «φορτωμένη γλώσσα» (λέξεις που προσθέτουν ένα κρίσιμο επίπεδο στην πραγματολογική επικοινωνία) σε ουδέτερη ή πεζή γλώσσα, αντί να διδάξει τον χρήστη σε συνεχή βάση. Ουσιαστικά, ο τελικός χρήστης θα ορίσει ηθικά φίλτρα και θα εκπαιδεύσει το σύστημα ανάλογα. στην προσέγγιση των Εγγράφων Google, το σύστημα εκπαιδεύει – αναμφισβήτητα – τον ​​χρήστη, με μονομερή τρόπο.

Εννοιολογική αρχιτεκτονική για τη ροή εργασίας Dbias.

Εννοιολογική αρχιτεκτονική για τη ροή εργασίας Dbias.

Σύμφωνα με τους ερευνητές, το Dbias είναι το πρώτο πραγματικά διαμορφώσιμο πακέτο ανίχνευσης προκατάληψης, σε αντίθεση με τα off-the-shelf έργα συναρμολόγησης που έχουν χαρακτηρίσει αυτόν τον υποτομέα της Επεξεργασίας Φυσικής Γλώσσας (NLP) μέχρι σήμερα.

Η νέο χαρτί είναι ο τίτλος Μια προσέγγιση για τη διασφάλιση δικαιοσύνης στα άρθρα ειδήσεων, και προέρχεται από συνεργάτες στο Πανεπιστήμιο του Τορόντο, στο Μητροπολιτικό Πανεπιστήμιο του Τορόντο, στη Διαχείριση Περιβαλλοντικών Πόρων στο Μπανγκαλόρ, στην Ακαδημία Επιστημών DeepBlue στην Κίνα και στο Πανεπιστήμιο του Σίδνεϊ.

Μέθοδος

Η πρώτη ενότητα στο Dbias είναι Ανίχνευση μεροληψίας, το οποίο αξιοποιεί το DistilBERT πακέτο – μια εξαιρετικά βελτιστοποιημένη έκδοση της αρκετά εντάσεως μηχανών της Google ΜΠΕΡΤ. Για το έργο, το DistilBERT προσαρμόστηκε στο Media Bias Annotation (MBIC) σύνολο δεδομένων.

Το MBIC αποτελείται από άρθρα ειδήσεων από διάφορες πηγές μέσων, συμπεριλαμβανομένων των Huffington Post, USA Today και MSNBC. Οι ερευνητές χρησιμοποίησαν την εκτεταμένη έκδοση του συνόλου δεδομένων.

Αν και τα αρχικά δεδομένα σχολιάστηκαν από εργαζομένους με πληθώρα (μέθοδος που ήρθε κάτω από φωτιά στα τέλη του 2021), οι ερευνητές της νέας εργασίας μπόρεσαν να εντοπίσουν επιπλέον μη επισημασμένες περιπτώσεις μεροληψίας στο σύνολο δεδομένων και τις προσάρτησαν με μη αυτόματο τρόπο. Τα εντοπισμένα περιστατικά μεροληψίας σχετίζονται με τη φυλή, την εκπαίδευση, την εθνικότητα, τη γλώσσα, τη θρησκεία και το φύλο.

Η επόμενη ενότητα, Αναγνώριση μεροληψίας, χρήσεις Αναγνωρισμένη οντότητα (NER) για να εξατομικεύσετε μεροληπτικές λέξεις από το κείμενο εισαγωγής. Η εφημερίδα αναφέρει:

«Για παράδειγμα, η είδηση ​​«Μην αγοράζετε την ψευδοεπιστημονική διαφημιστική εκστρατεία για τους ανεμοστρόβιλους και την κλιματική αλλαγή» έχει ταξινομηθεί ως προκατειλημμένη από την προηγούμενη ενότητα ανίχνευσης μεροληψίας και η ενότητα μεροληπτικής αναγνώρισης μπορεί πλέον να προσδιορίσει τον όρο «ψευδοεπιστημονική διαφημιστική εκστρατεία» ως προκατειλημμένη λέξη».

Το NER δεν έχει σχεδιαστεί ειδικά για αυτήν την εργασία, αλλά έχει χρησιμοποιηθεί πριν για προσδιορισμό μεροληψίας, ιδίως για α Το έργο 2021 από το Πανεπιστήμιο Durham στο Ηνωμένο Βασίλειο.

Για αυτό το στάδιο, οι ερευνητές χρησιμοποίησαν ΡοΜΠΕΡΤΑ σε συνδυασμό με τον αγωγό SpaCy English Transformer NER.

Το επόμενο στάδιο, Προκατάληψη απόκρυψης, περιλαμβάνει μια νέα πολλαπλή μάσκα των προσδιορισμένων λέξεων μεροληψίας, η οποία λειτουργεί διαδοχικά σε περιπτώσεις πολλαπλών προσδιορισμένων μεροληψιών λέξεων.

Η φορτωμένη γλώσσα αντικαθίσταται από ρεαλιστική γλώσσα στο τρίτο στάδιο του Dbias. Σημειώστε ότι το "στόμα" και το "χρήση" ισοδυναμούν με την ίδια ενέργεια, αν και η πρώτη θεωρείται χλευαστική.

Η φορτωμένη γλώσσα αντικαθίσταται από ρεαλιστική γλώσσα στο τρίτο στάδιο του Dbias. Σημειώστε ότι το "στόμα" και το "χρήση" ισοδυναμούν με την ίδια ενέργεια, αν και η πρώτη θεωρείται χλευαστική.

Εάν είναι απαραίτητο, η ανατροφοδότηση από αυτό το στάδιο θα σταλεί πίσω στην αρχή του αγωγού για περαιτέρω αξιολόγηση έως ότου δημιουργηθεί ένας αριθμός κατάλληλων εναλλακτικών φράσεων ή λέξεων. Αυτό το στάδιο χρησιμοποιεί μοντελοποίηση μάσκας γλώσσας (MLM) σύμφωνα με τις γραμμές που καθορίζονται από α 2021 συνεργασία με επικεφαλής το Facebook Research.

Κανονικά η εργασία MLM θα κρύψει το 15% των λέξεων τυχαία, αλλά η ροή εργασίας Dbias λέει στη διαδικασία να λάβει τις προσδιορισμένες μεροληπτικές λέξεις ως είσοδο.

Η αρχιτεκτονική υλοποιήθηκε και εκπαιδεύτηκε στο Google Colab Pro σε NVIDIA P100 με 24 GB VRAM σε μέγεθος παρτίδας 16, χρησιμοποιώντας μόνο δύο ετικέτες (μεροληπτική και αμερόληπτος).

Δοκιμές

Οι ερευνητές εξέτασαν το Dbias έναντι πέντε συγκρίσιμων προσεγγίσεων: LG-TFIDF με Λογιστική παλινδρόμηση και TfidfVetorizer (TFIDF) ενσωματώσεις λέξεων. LG-ELMO; MLP-ELMO (ένα τεχνητό νευρωνικό δίκτυο τροφοδοσίας που περιέχει ενσωματώσεις ELMO). BERT? και RoBERTA.

Οι μετρήσεις που χρησιμοποιήθηκαν για τις δοκιμές ήταν η ακρίβεια (ACC), η ακρίβεια (PREC), η ανάκληση (Rec) και η βαθμολογία F1. Δεδομένου ότι οι ερευνητές δεν γνώριζαν κανένα υπάρχον σύστημα που θα μπορούσε να ολοκληρώσει και τις τρεις εργασίες σε έναν ενιαίο αγωγό, πραγματοποιήθηκε απαλλαγή για τα ανταγωνιστικά πλαίσια, αξιολογώντας μόνο τα κύρια καθήκοντα του Dbias – τον ​​εντοπισμό και την αναγνώριση μεροληψίας.

Αποτελέσματα από τις δοκιμές Dbias.

Αποτελέσματα από τις δοκιμές Dbias.

Το Dbias πέτυχε να ξεπεράσει τα αποτελέσματα από όλα τα ανταγωνιστικά πλαίσια, συμπεριλαμβανομένων εκείνων με βαρύτερο αποτύπωμα επεξεργασίας

Το έγγραφο αναφέρει:

«Το αποτέλεσμα δείχνει επίσης ότι οι βαθιές νευρικές ενσωματώσεις, γενικά, μπορούν να ξεπεράσουν τις παραδοσιακές μεθόδους ενσωμάτωσης (π.χ., TFIDF) στην εργασία ταξινόμησης μεροληψίας. Αυτό φαίνεται από την καλύτερη απόδοση των ενσωματώσεων σε βαθιά νευρωνικά δίκτυα (δηλαδή, ELMO) σε σύγκριση με τη διανυσματοποίηση TFIDF όταν χρησιμοποιείται με την LG.

Αυτό οφείλεται πιθανώς στο ότι οι βαθιές νευρικές ενσωματώσεις μπορούν να αποτυπώσουν καλύτερα το πλαίσιο των λέξεων στο κείμενο σε διαφορετικά περιβάλλοντα. Οι βαθιές νευρικές ενσωματώσεις και οι μέθοδοι βαθιάς νευρικής λειτουργίας (MLP, BERT, RoBERTa) αποδίδουν επίσης καλύτερα από την παραδοσιακή μέθοδο ML (LG).'

Οι ερευνητές σημειώνουν επίσης ότι οι μέθοδοι που βασίζονται σε μετασχηματιστές υπερτερούν των ανταγωνιστικών μεθόδων στην ανίχνευση μεροληψίας.

Μια πρόσθετη δοκιμή περιελάμβανε μια σύγκριση μεταξύ του Dbias και διαφόρων γεύσεων του SpaCy Core Web, συμπεριλαμβανομένων των core-sm (μικρό), core-md (μεσαίο) και core-lg (μεγάλο). Ο Dbias ήταν σε θέση να ηγηθεί του συμβουλίου και σε αυτές τις δοκιμές:

Οι ερευνητές καταλήγουν παρατηρώντας ότι οι εργασίες αναγνώρισης μεροληψίας γενικά δείχνουν καλύτερη ακρίβεια σε μεγαλύτερα και ακριβότερα μοντέλα, λόγω – εικασίες – στον αυξημένο αριθμό παραμέτρων και σημείων δεδομένων. Παρατηρούν επίσης ότι η αποτελεσματικότητα της μελλοντικής εργασίας σε αυτόν τον τομέα θα εξαρτηθεί από μεγαλύτερες προσπάθειες για τον σχολιασμό συνόλων δεδομένων υψηλής ποιότητας.

Το Δάσος και τα Δέντρα

Ας ελπίσουμε ότι αυτό το είδος λεπτομερούς έργου αναγνώρισης μεροληψίας θα ενσωματωθεί τελικά σε πλαίσια αναζήτησης μεροληψίας που μπορούν να έχουν μια λιγότερο μυωπική άποψη και να λάβουν υπόψη ότι η επιλογή κάλυψης οποιασδήποτε συγκεκριμένης ιστορίας είναι από μόνη της μια πράξη μεροληψίας που είναι δυνητικά οδηγείται από περισσότερα από τα αναφερόμενα στατιστικά στοιχεία προβολής.

 

Πρώτη δημοσίευση στις 14 Ιουλίου 2022.