Τεχνητή νοημοσύνη

MIT: Μέτρηση του メディア偏向 σε Κύρια Μέσα Ενημέρωσης με τη Χρήση Μηχανικής Μάθησης

Published September 14, 2021

Updated April 28, 2026

Martin Anderson

Μια μελέτη από το MIT έχει χρησιμοποιήσει τεχνικές μηχανικής μάθησης για να αναγνωρίσει προκατειλημμένη φρασεολογία σε περίπου 100 από τα μεγαλύτερα και πιο επιδραστικά μέσα ενημέρωσης στις ΗΠΑ και πέραν αυτών, συμπεριλαμβανομένων 83 από τα πιο επιδραστικά έντυπα μέσα ενημέρωσης. Đây είναι μια ερευνητική προσπάθεια που δείχνει τον δρόμο προς αυτοματοποιημένα συστήματα που θα μπορούσαν потенτικά να ταξινομήσουν αυτόματα το πολιτικό χαρακτήρα μιας έκδοσης και να δώσουν στους αναγνώστες μια βαθύτερη εικόνα για την ηθική στάση ενός μέσου ενημέρωσης σε θέματα που μπορεί να αισθανθούν με πάθος.

Το έργο επικεντρώνεται στον τρόπο με τον οποίο αντιμετωπίζονται τα θέματα με συγκεκριμένη φρασεολογία, όπως απώνυμος μετανάστης | παράνομος μετανάστης, έμβρυο | αμόρφωτο μωρό, διαδηλωτές | αναρχικοί.

Το πρότζεκτ χρησιμοποίησε τεχνικές επεξεργασίας φυσικής γλώσσας (NLP) για να εξαγάγει και να ταξινομήσει τέτοιες περιπτώσεις “φορτισμένης” γλώσσας (με την υπόθεση ότι φαινομενικά πιο “ουδέτερες” όροι επίσης αντιπροσωπεύουν μια πολιτική στάση) σε một ευρύ χάρτη που αποκαλύπτει αριστερή και δεξιά προκατειλημμένη στάση σε πάνω από τρία εκατομμύρια άρθρα από περίπου 100 μέσα ενημέρωσης, με αποτέλεσμα ένα πλοήγηση τοπίο προκαταλήψεων των εκδόσεων που εξετάζονται.

Το έγγραφο προέρχεται από τους Samantha D’Alonzo και Max Tegmark στο Τμήμα Φυσικής του MIT και παρατηρεί ότι một số πρόσφατες πρωτοβουλίες γύρω από τον “ελέγχο факέλων”, μετά από πολυάριθμες σκανδάλες “ψευδών ειδήσεων”, μπορούν να ερμηνευτούν ως δόλιες και να υπηρετούν τους σκοπούς συγκεκριμένων συμφεροντούν. Το πρότζεκτ έχει ως στόχο να παρέχει μια πιο δεδομενο-κίνητη προσέγγιση για τη μελέτη της χρήσης προκαταλήψεων και “επιρροών” γλώσσας σε ένα υποτιθέμενο ουδέτερο περιβάλλον ειδήσεων.

Ένα φάσμα (λι터άλ) αριστερά-δεξιά φράσεων, όπως προκύπτει από τη μελέτη. Πηγή: https://arxiv.org/pdf/2109.00024.pdf

Επεξεργασία NLP

Τα δεδομένα της μελέτης προέρχονται από τη βάση δεδομένων Newspaper3K και αποτελούνται από 3.078.624 άρθρα από 100 πηγές ειδήσεων, συμπεριλαμβανομένων 83 εφημερίδων. Οι εφημερίδες επιλέχθηκαν με βάση την εμβέλειά τους, ενώ τα online μέσα ενημέρωσης περιλαμβάνουν άρθρα από τον ιστότοπο ανάλυσης quân sự Defense One και Science.

Οι πηγές που χρησιμοποιήθηκαν στη μελέτη.

Το έγγραφο αναφέρει ότι ο κώδικας που κατεβάστηκε ήταν “ελάχιστα” προεπεξεργασμένος. Οι άμεσες παραθέσεις αφαιρέθηκαν, поскольку η μελέτη ενδιαφέρεται για τη γλώσσα που επιλέγουν οι δημοσιογράφοι (αν και η επιλογή παραθέσεων είναι από μόνη της ένα ενδιαφέρον πεδίο μελέτης).

Οι βρετανικές ορθογραφίες μετατράπηκαν σε αμερικανικές για να стандαρδοποιηθεί η βάση δεδομένων, όλα τα σημεία στίξης αφαιρέθηκαν και όλα τα μη ordinal αριθμούς επίσης αφαιρέθηκαν. Η αρχική προσωρινή κεφαλαιοποίηση μετατράπηκε σε μικρά γράμματα, αλλά όλες οι άλλες κεφαλαιοποιήσεις διατηρήθηκαν.

Οι πρώτες 100.000 πιο συχνές φράσεις αναγνωρίστηκαν και στη συνέχεια κατατάχθηκαν, καθαρίστηκαν και συνδυάστηκαν σε μια λίστα φράσεων. Όλη η περιττή γλώσσα που μπορούσε να αναγνωριστεί (όπως “Μοιράστε αυτή την δημοσίευση” και “η δημοσίευση αναπαράχθηκε”) αφαιρέθηκε επίσης. Οι παραλλαγές σε ουσιαστικά ταυτόσημες φράσεις (π.χ. “μεγάλη τεχνολογία” και “Big Tech”, “κυβερνοασφάλεια” και “cyber security”) стандαρδοποιήθηκαν.

‘Nutpicking’

Η αρχική δοκιμή ήταν στο θέμα “Black lives matter” και ήταν σε θέση να διακρίνει φρασεολογική προκατάληψη και συγγενείς συνώνυμα σε όλα τα δεδομένα.

Γενικευμένα στοιχεία για άρθρα σχετικά με το Black Lives Matter (BLM). Βλέπουμε τους ανθρώπους που συμμετέχουν σε πολιτική δράση χαρακτηρισμένους, κυριολεκτικά και μεταφορικά, από αριστερά προς τα δεξιά, ως διαδηλωτές, αναρχικοί και, στο πιο δεξιό άκρο του φάσματος, ως ‘ριότες’. Οι εφημερίδες που προέρχονται από τη φράση αναπαρίστανται στο δεξιό πάνελ.

Ενώ ‘διαδηλωτές’ μετατρέπονται από ‘αναρχικούς’ σε ‘ριότες’ καθώς κινούμαστε κατά μήκος της πολιτικής στάσης του μέσου ενημέρωσης, το έγγραφο σημειώνει ότι η εξαγωγή και ανάλυση NLP εμποδίζεται από την πρακτική του ‘nutpicking’ – όπου ένα μέσο ενημέρωσης θα παραθέσει μια φράση που θεωρείται έγκυρη από ένα διαφορετικό πολιτικό τμήμα της κοινωνίας και μπορεί (παραδόξως) να βασιστεί στο ότι οι αναγνώστες θα την θεωρήσουν αρνητικά. Το έγγραφο αναφέρει ‘αποχαρακτηρισμό της αστυνομίας’ ως ένα παράδειγμα αυτού.

Φυσικά, αυτό σημαίνει ότι μια ‘αριστερή’ φράση εμφανίζεται σε ένα αλλιώς δεξιό περιβάλλον και αντιπροσωπεύει μια ασυνήθιστη πρόκληση για ένα σύστημα NLP που βασίζεται σε κωδικοποιημένες φράσεις για να ενεργήσει ως δείκτες για πολιτικές στάσεις.

Τέτοιες φράσεις είναι ‘διπλοβάθμισες’ [SIC] , ενώ ορισμένες άλλες φράσεις έχουν μια τόσο καθολικά αρνητική σημασία (π.χ. ‘εμβρυοκτονία’) που πάντα αντιπροσωπεύονται ως αρνητικές σε μια σειρά από μέσα ενημέρωσης.

Η έρευνα αποκαλύπτει επίσης παρόμοιες αντιστοιχίες για ‘ζεστά’ θέματα όπως η άμβλωση, η λογοκρισία της τεχνολογίας, η μετανάστευση στις ΗΠΑ και ο έλεγχος των όπλων.

Ασχολίες

Υπάρχουν ορισμένες αμφιλεγόμενα πολιτικά προσανατολισμοί στα μέσα ενημέρωσης που δεν χωρίζουν προβλέψιμα με αυτόν τον τρόπο, όπως το θέμα των στρατιωτικών δαπανών. Η έρευνα βρήκε ότι η ‘αριστερή’ CNN βρέθηκε δίπλα στη δεξιά National Review και Fox News σε αυτό το θέμα.

Γενικά, ωστόσο, η πολιτική στάση μπορεί να καθοριστεί από άλλες φράσεις, όπως η προτίμηση της φράσης ‘στρατιωτικο-βιομηχανικός комплекс’ έναντι της πιο δεξιάς ‘αμυντική βιομηχανία’. Τα αποτελέσματα δείχνουν ότι η πρώτη χρησιμοποιείται από εκδόσεις που κριτικάρουν την εξουσία, όπως Canary και Αμερικανική Συντηρητική, ενώ η δεύτερη χρησιμοποιείται πιο συχνά από το Fox και την CNN.

Η έρευνα καθιερώνει αρκετές άλλες προοδεύσεις από την κριτική της εξουσίας στη γλώσσα που υποστηρίζει την εξουσία, συμπεριλαμβανομένης της σειράς από ‘σκοτώθηκε’ στο πιο παθητικό ‘η δολοφονία’; ‘κρατουμένοι εγκληματίες’ σε ‘κρατουμένοι άνθρωποι’; και ‘παραγωγοί πετρελαίου’ σε ‘μεγάλο πετρέλαιο’.

Συγγενείς συνώνυμα με προκατάληψη της εξουσίας, από πάνω προς τα κάτω.

Η έρευνα αναγνωρίζει ότι τα μέσα ενημέρωσης θα ‘απομακρύνουν’ από τη βασική πολιτική στάση τους, είτε σε γλωσσικό επίπεδο (όπως η χρήση διπλοβάθμιων φράσεων), είτε για διάφορους άλλους λόγους. Για παράδειγμα, η αξιόλογη δεξιά βρετανική έκδοση The Spectator, που ιδρύθηκε το 1828, συχνά και προεξέχοντα παρουσιάζει αριστερές σκέψεις που τρίβουν ενάντια στη γενική πολιτική ροή του ρεύματος περιεχομένου. Εάν αυτό γίνεται από μια αίσθηση αμεροληψίας ή για να προκαλέσει περιοδικά την κεντρική του κοινό σε comment-storms είναι ένα ζήτημα εικασίας – και δεν είναι ένα εύκολο ζήτημα για ένα σύστημα μηχανικής μάθησης που ψάχνει για σαφείς και συνεπείς δείκτες.

Αυτές οι συγκεκριμένες ‘ασχολίες’ και η αμφίβολη χρήση ‘περιεργών’ απόψεων μεταξύ ατομικών μέσων ενημέρωσης κάπως συγχέει το αριστερό-δεξιό χάρτη που η έρευνα τελικά προσφέρει, παρέχοντας μια ευρεία ένδειξη πολιτικής συσχέτισης.

Κρυμμένη Σημασία

Αν και η ημερομηνία είναι 2 Σεπτεμβρίου και δημοσιεύθηκε στο τέλος Αυγούστου 2021, το έγγραφο έχει κερδίσει σχετικά λίγη προσοχή. Μερικώς αυτό μπορεί να οφείλεται στο γεγονός ότι κρίσιμη έρευνα που στοχεύει στα κύρια μέσα ενημέρωσης είναι απίθανο να ληφθεί με ενθουσιασμό από αυτά, αλλά μπορεί επίσης να οφείλεται στη διστακτικότητα των συγγραφέων να παράγουν σαφείς και απροβλημάτιστους γραφικούς που να ταξινομούν πού βρίσκονται τα επιδραστικά και ισχυρά μέσα ενημέρωσης σε διάφορα θέματα, μαζί με συσσωρευμένες τιμές που δείχνουν το βαθμό στον οποίο μια έκδοση κλίνει προς τα αριστερά ή τα δεξιά. Σε πραγματικότητα, οι συγγραφείς φαίνεται να προσπαθούν να μειώσουν την πιθανή incendiary επίδραση των αποτελεσμάτων.

Ομοίως, τα εκτεταμένα δημοσιευμένα δεδομένα από το πρότζεκτ δείχνουν συχνότητες εμφάνισης λέξεων, αλλά φαίνεται να είναι ανώνυμα, καθιστώντας δύσκολο να ληφθεί μια σαφής εικόνα για την προκατάληψη των μέσων ενημέρωσης σε όλα τα μέσα που μελετήθηκαν. Χωρίς να λειτουργήσει το πρότζεκτ με κάποιον τρόπο, αυτό αφήνει μόνο τα επιλεγμένα παραδείγματα που παρουσιάζονται στο έγγραφο.

Μελλοντικές μελέτες αυτού του είδους θα μπορούσαν να είναι πιο χρήσιμες εάν λάμβαναν υπόψη όχι μόνο τη φρασεολογία που χρησιμοποιείται για τα θέματα, αλλά και εάν το θέμα καλύπτεται καθόλου,既然 η σιωπή μιλάει πολύ, και έχει από μόνη της μια ξεχωριστή πολιτική χαρακτήρα που συχνά μιλάει για περισσότερα από απλές προϋπολογιστικές限制 ή άλλους πρακτικούς παράγοντες που μπορεί να επηρεάσουν την επιλογή των ειδήσεων.

Παρόλα αυτά, η μελέτη του MIT φαίνεται να είναι η μεγαλύτερη του είδους της μέχρι σήμερα και θα μπορούσε να αποτελέσει το πλαίσιο για μελλοντικά συστήματα ταξινόμησης, και ακόμη και δευτερεύοντα τεχνολογικά προϊόντα όπως πρόσθετα για τον προγραμματισμό που θα μπορούσαν να ενημερώσουν τους αναγνώστες για το πολιτικό χρώμα της έκδοσης που διαβάζουν.

Φούσκες, Προκαταλήψεις και Αντιδράσεις

Επιπλέον, θα πρέπει να ληφθεί υπόψη εάν τέτοια συστήματα θα επιδεινώσουν ένα από τα πιο αμφιλεγόμενα χαρακτηριστικά των συστημάτων αλγορίθμων συστάσεων – την τάση να οδηγούν έναν θεατή σε περιβάλλοντα όπου δεν βλέπει μια αντίθετη ή προκλητική άποψη, που πιθανό να ενισχύσει την στάση του αναγνώστη σε κεντρικά θέματα.

Εάν ένα τέτοιο περιεχόμενο φούσκα είναι ένα “ασφαλές περιβάλλον”, ένα εμπόδιο στην πνευματική ανάπτυξη, ή μια προστασία ενάντια σε μερική προπαγάνδα, είναι μια αξιολογική κρίση – ένα φιλοσοφικό ζήτημα που είναι δύσκολο να προσεγγιστεί από τη μηχανιστική, στατιστική οπτική των συστημάτων μηχανικής μάθησης.

Επιπλέον, όπως η μελέτη του MIT έχει προσπαθήσει να αφήσει τα δεδομένα να ορίσουν τα αποτελέσματα, η ταξινόμηση της πολιτικής αξίας των φράσεων είναι αναπόφευκτα μια種 αξιολογική κρίση, και μια που δεν μπορεί εύκολα να αντέξει την ικανότητα της γλώσσας να ανακωδικοποιήσει τοξική ή αμφιλεγόμενα περιεχόμενα σε νέες φράσεις που δεν είναι στο εγχειρίδιο, τους κανόνες του φόρουμ ή τη βάση δεδομένων εκπαίδευσης.

Εάν μια τέτοια κωδικοποίηση θα ενσωματωθεί σε δημοφιλή online συστήματα, φαίνεται πιθανό ότι μια συνεχής προσπάθεια να χαρτογραφηθεί η ηθική και πολιτική θερμοκρασία των μεγάλων μέσων ενημέρωσης θα εξελιχθεί σε einen ψυχρό πόλεμο μεταξύ της ικανότητας του AI να αναγνωρίσει προκαταλήψεις και της ικανότητας των εκδοτών να εκφράσουν την άποψή τους σε μια εξελισσόμενη ιδιωματική που σχεδιαστεί να υπερβεί συνεχώς την κατανόηση της σημασιολογίας της μηχανικής μάθησης.