Connect with us

Μια Προσέγγιση NLP για την Ανίχνευση Υπερβολής στη Δημοσιογραφία Επιστήμης

Τεχνητή νοημοσύνη

Μια Προσέγγιση NLP για την Ανίχνευση Υπερβολής στη Δημοσιογραφία Επιστήμης

mm

Ερευνητές από τη Δανία έχουν αναπτύξει ένα σύστημα “ανίχνευσης υπερβολής” που σχεδιάστηκε για να μετριάσει τις επιπτώσεις των δημοσιογράφων που υπερβάλλουν τις επιπτώσεις νέων επιστημονικών ερευνών όταν τις συνοψίζουν και τις αναφέρουν. Το έργο έχει προκύψει από το βαθμό με τον οποίο νέα δημοσιευμένη έρευνα για το COVID-19 έχει παραμορφωθεί στα κανάλια αναφοράς, αν και οι συγγραφείς παραδέχονται ότι είναι εφαρμόσιμο σε ένα ευρύ φάσμα του γενικού τομέα της επιστημονικής αναφοράς.

Το έγγραφο, με τίτλο Ημι-Επιβλεπόμενη Ανίχνευση Υπερβολής των Δημόσιων Ανακοινώσεων για την Υγεία, προέρχεται από το Πανεπιστήμιο της Κοπενχάγης και σημειώνει ότι το πρόβλημα επιδεινώνεται από την τάση των εκδόσεων να μην περιλαμβάνουν συνδέσμους πηγής προς την αρχική έρευνα – μια ολοένα και πιο συχνή δημοσιογραφική πρακτική που προσπαθεί να αντικαταστήσει την αρχική εργασία και να υποκαταστήσει την αναφερόμενη περίληψη ως “γνώση πηγής” – ακόμη και όταν το έγγραφο είναι δημόσια διαθέσιμο.

Από το έγγραφο, μια τυπική εκδήλωση υπερβολής των επιστημονικών εγγράφων. Πηγή: https://arxiv.org/pdf/2108.13493.pdf

Από το έγγραφο, μια τυπική εκδήλωση υπερβολής των επιστημονικών εγγράφων. Πηγή: https://arxiv.org/pdf/2108.13493.pdf

Το πρόβλημα δεν περιορίζεται μόνο στην εξωτερική δημοσιογραφική αντίδραση σε νέα έγγραφα, αλλά μπορεί να επεκταθεί σε άλλους τύπους περιλήψεων, συμπεριλαμβανομένων των εσωτερικών προσπαθειών δημοσίων σχέσεων των πανεπιστημίων και των ερευνητικών ιδρυμάτων, του προωθητικού υλικού που στοχεύει στην προώθηση της προσοχής των μέσων ενημέρωσης και των χρήσιμων συνδέσμων αναφοράς (και πιθανών πυρομαχικών για γύρους χρηματοδότησης) όταν οι δημοσιογράφοι “δαγκώνουν”.

Το έργο αξιοποιεί την Προcessing Φυσικής Γλώσσας (NLP) κατά μήκος ενός νέου συνόλου δεδομένων από ζευγαρωμένες δημόσιες ανακοινώσεις και περιλήψεις, με τους ερευνητές να ισχυρίζονται ότι έχουν αναπτύξει “[μια] νέα, πιο ρεαλιστική διατύπωση εργασίας” για την ανίχνευση της επιστημονικής υπερβολής. Οι συγγραφείς έχουν υποσχεθεί να δημοσιεύσουν τον κώδικα και τα δεδομένα για το έργο στο GitHub σύντομα.

Αντιμετωπίζοντας τον Σενσασιοναλισμό

Μια σειρά από μελέτες έχουν αντιμετωπίσει το πρόβλημα του επιστημονικού σενσασιοναλισμού τα τελευταία τριάντα χρόνια περίπου, και έχουν επικεντρωθεί στην παραπληροφόρηση που μπορεί να οδηγήσει. Ο αμερικανός κοινωνιολόγος Dorothy Nelkin αντιμετώπισε το ζήτημα αξιομνημόνως στο βιβλίο του 1987 Πώληση Επιστήμης: Πώς τα Μέσα Ενημέρωσης Καλύπτουν την Επιστήμη και την Τεχνολογία, η αναφορά Embo του 2006 Κακή Επιστήμη στις Επικεφαλίδες τόνισε την ανάγκη για περισσότερους επιστημονικά εκπαιδευμένους δημοσιογράφους, ακριβώς όπως το διαδίκτυο έφερε κρίσιμες πιέσεις προϋπολογισμού στα παραδοσιακά μέσα ενημέρωσης.

Επιπλέον, το 2014 το Βρετανικό Ιατρικό Περιοδικό έφερε το πρόβλημα στο επίκεντρο σε μια αναφορά, και μια μελέτη του 2019 από το Wellcome Open Research καθιέρωσε ότι η υπερβολή των επιστημονικών εγγράφων δεν προσφέρει κανένα όφελος (σε όρους εμβέλειας ή κυκλοφορίας) στα κανάλια ενημέρωσης και άλλα συστήματα αναφοράς που επιδίδονται σε αυτήν την πρακτική.

Ωστόσο, η έλευση της πανδημίας έχει φέρει τις αρνητικές επιπτώσεις αυτής της υπεροχής στο επίκεντρο, με eine σειρά από πλατφόρμες πληροφόρησης, συμπεριλαμβανομένης της σελίδας αποτελεσμάτων αναζήτησης του Google και του δείκτη επιστημονικών εγγράφων του Πανεπιστημίου Cornell Arxiv να προσθέτουν αυτόματα προειδοποιήσεις σε οποιοδήποτε περιεχόμενο που φαίνεται να ασχολείται με το COVID.

Τροποποιημένες διεπαφές για αναζητήσεις και περιεχόμενο σχετικό με το COVID, από τη σελίδα αποτελεσμάτων αναζήτησης του Google και από το επηρεστικό αποθετήριο επιστημονικών εγγράφων Arxiv του Πανεπιστημίου Cornell.

Τροποποιημένες διεπαφές για αναζητήσεις και περιεχόμενο σχετικό με το COVID, από τη σελίδα αποτελεσμάτων αναζήτησης του Google και από το επηρεστικό αποθετήριο επιστημονικών εγγράφων Arxiv του Πανεπιστημίου Cornell.

Προηγούμενα έργα έχουν προσπαθήσει να δημιουργήσουν συστήματα ανίχνευσης υπερβολής για επιστημονικά έγγραφα αξιοποιώντας την NLP, συμπεριλαμβανομένης μιας συνεργασίας του 2019 μεταξύ ερευνητών από το Χονγκ Κονγκ και την Κίνα, και ενός άλλου (ασχετού) δανικού εγγράφου το 2017.

Οι ερευνητές του νέου εγγράφου σημειώνουν ότι αυτές οι προηγούμενες προσπάθειες ανέπτυξαν συνόλου δεδομένων από αξιώματα από περιλήψεις και ανακοινώσεις από το PubMed και το EurekAlert, με ετικέτες για “δύναμη”, και τα χρησιμοποίησαν για να εκπαιδεύσουν μοντέλα μηχανικής μάθησης για να προβλέψουν δύναμη αξιώματος σε μη είδη δεδομένα.

MT-PET

Η νέα έρευνα συνδυάζει μια δημόσια ανακοίνωση και μια περίληψη ως ένα συνδυασμένο οντότητα δεδομένων, και εκμεταλλεύεται το συνδεδεμένο σύνολο δεδομένων στο MT-PET, μια多-εργασία έκδοση της έρευνας Pattern Exploiting Training που παρουσιάστηκε για πρώτη φορά το 2020 ως Εξαγωγή Cloze Ερωτήσεων για Few Shot Text Classification και Φυσική Γλώσσα, μια συνδυασμένη ερευνητική προσπάθεια από δύο γερμανικά ερευνητικά ιδρύματα.

Δεν βρέθηκε κανένα υπάρχον σύνολο δεδομένων να είναι κατάλληλο για την εργασία, και η ομάδα इसलόγου δημιούργησε ένα νέο σύνολο δεδομένων από ζευγαρωμένες προτάσεις από περιλήψεις και σχετικές δημόσιες ανακοινώσεις, αξιολογημένες από “εξειδικευμένους” όρους της τάσης τους να υπερβάλλουν.

Οι ερευνητές χρησιμοποίησαν το πλαίσιο few-shot text classification PETAL ως μέρος μιας διαδικασίας για να αυτοματοποιήσουν την généννηση ζευγαρωμένων προτύπων-λεκτικών, και στη συνέχεια επαναλαμβάνοντας τη διαδικασία μέχρι να βρεθούν ισοδύναμα τυπικά ζευγάρια για δύο ποιότητες: ανίχνευση υπερβολής και δύναμη αξιώματος.

Τα “χρυσα” δεδομένα για δοκιμή επαναχρησιμοποιήθηκαν από τα προαναφερθέντα προηγούμενα ερευνητικά έργα, αποτελούμενα από 823 ζευγάρια περιλήψεων και δημόσιων ανακοινώσεων. Οι ερευνητές απέρριψαν τη δυνατότητα χρήσης των δεδομένων του BMJ του 2014, поскольку είναι παραφρασμένα.

Αυτή η διαδικασία απέφερε ένα σύνολο δεδομένων από 663 ζευγάρια περιλήψεων/ανακοινώσεων με ετικέτες για υπερβολή και δύναμη αξιώματος. Οι ερευνητές τυχαία δείγμασαν 100 από αυτά ως δεδομένα εκπαίδευσης few-shot, με 553 παραδείγματα να αποθηκεύονται για δοκιμή. Επιπλέον, δημιουργήθηκε ένα μικρό σύνολο εκπαίδευσης αποτελούμενο από 1.138 προτάσεις, ταξινομημένες ως προς το αν αντιπροσωπεύουν την κύρια σύνοψη της περίληψης ή της δημόσιας ανακοίνωσης. Αυτά χρησιμοποιήθηκαν για να αναγνωρίσουν “προτάσεις σύνοψης” σε μη ετικετεμένα ζευγάρια.

Δοκιμή

Οι ερευνητές δοκιμάσαν την προσέγγιση σε τρεις διαμορφώσεις: μια πλήρως επιβλεπόμενη διαμόρφωση με αποκλειστικά ετικετεμένα δεδομένα, μια μονό-εργασία PET διαμόρφωση, και στο νέο MT-PET, το οποίο προσθέτει einen δευτερεύοντα νήμα ως βοηθητική εργασία (καθώς ο σκοπός του έργου είναι να εξετάσει δύο ξεχωριστές ποιότητες από ένα σύνολο δεδομένων με ζευγαρωμένες δομές δεδομένων).

Οι ερευνητές βρήκαν ότι το MT-PET βελτίωσε τα βασικά αποτελέσματα του PET σε όλες τις περιπτώσεις δοκιμής, και βρήκαν ότι η ταυτοποίηση της δύναμης αξιώματος βοήθησε στην παραγωγή μαλακών ετικετεμένων δεδομένων εκπαίδευσης για ανίχνευση υπερβολής. Ωστόσο, το έγγραφο σημειώνει ότι σε ορισμένες διαμορφώσεις μεταξύ eines σύνθετου πίνακα δοκιμών, ιδιαίτερα σχετικά με τη δύναμη αξιώματος, η παρουσία επαγγελματικά ετικετεμένων δεδομένων μπορεί να είναι ένας παράγοντας για τα βελτιωμένα αποτελέσματα (σε σύγκριση με προηγούμενα ερευνητικά έργα που αντιμετωπίζουν αυτό το πρόβλημα). Αυτό μπορεί να έχει επιπτώσεις στο βαθμό με τον οποίο η διαδικασία μπορεί να αυτοματοποιηθεί, ανάλογα με την έμφαση δεδομένων της εργασίας.

Ωστόσο, οι ερευνητές καταλήγουν στο συμπέρασμα ότι το MT-PET “βοηθά στις πιο δύσκολες περιπτώσεις αναγνώρισης και διαφοροποίησης άμεσων αιτιακών αξιώσεων από ασθενέστερες αξιώσεις, και ότι η πιο αποτελεσματική προσέγγιση περιλαμβάνει την ταξινόμηση και τη σύγκριση της ατομικής δύναμης αξιώματος των προτάσεων από τα πηγαία και στόχους εγγράφων”.

Στο κλείσιμο, το έργο υποθέτει ότι το MT-PET δεν μόνο μπορεί να εφαρμοστεί σε ένα ευρύτερο φάσμα επιστημονικών εγγράφων (εκτός του τομέα της υγείας), αλλά μπορεί επίσης να αποτελέσει τη βάση για νέα εργαλεία για να βοηθήσουν τους δημοσιογράφους να παράγουν καλύτερες περιλήψεις επιστημονικών εγγράφων (αν και αυτό, ίσως αφελώς, υποθέτει ότι οι δημοσιογράφοι υπερβάλλουν τη δύναμη αξιώματος через αγνοια), καθώς και να βοηθήσει την ερευνητική κοινότητα στην διατύπωση μιας σαφέστερης χρήσης γλώσσας για να εξηγήσει σύνθετες ιδέες. Επιπλέον, το έγγραφο παρατηρεί:

‘[πρέπει να σημειωθεί ότι τα αποτελέσματα προβλέψεως που αναφέρονται σε αυτό το έγγραφο είναι για δημόσιες ανακοινώσεις γραμμένες από δημοσιογράφους επιστήμης – θα μπορούσαμε να περιμένουμε χειρότερα αποτελέσματα για δημόσιες ανακοινώσεις που απλοποιούν περισσότερο τα επιστημονικά άρθρα.’

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]