Τεχνητή νοημοσύνη
Προς την Αυτοματοποιημένη Επιστημονική Γραφή

Αυτό το πρωί, ψάχνοντας τις ενότητες Επιστημονικών Υπολογιστών στο Arxiv, όπως κάνω τις περισσότερες πρωινές ώρες, ήρθα σε επαφή με một πρόσφατο έγγραφο από το Ομοσπονδιακό Πανεπιστήμιο του Ceara στη Βραζιλία, που προσφέρει ένα νέο πλαίσιο Επεξεργασίας Φυσικής Γλώσσας για να αυτοματοποιήσει την περίληψη και την εξαγωγή των βασικών δεδομένων από επιστημονικές εργασίες.
Από τη στιγμή που αυτό είναι περίπου αυτό που κάνω κάθε μέρα, το έγγραφο μου έφερε στο νου ένα σχόλιο σε ένα νήμα συγγραφέων στο Reddit νωρίτερα αυτό το έτος – μια προφητεία σχετικά με το ότι η επιστημονική γραφή θα είναι μεταξύ των πρώτων δημοσιογραφικών εργασιών που θα αναληφθούν από τη μηχανική μάθηση.
Ας είμαι σαφής – πιστεύω απολύτως ότι ο αυτοματοποιημένος επιστημονικός συγγραφέας έρχεται, και ότι όλες οι προκλήσεις που περιγράφω σε αυτό το άρθρο είναι είτε λύσιμες τώρα, είτε θα λυθούν τελικά. Όπου είναι δυνατό, δίνω παραδείγματα για αυτό. Επιπλέον, δεν ασχολούμαι με το αν τα τρέχοντα ή τα κοντινά επιστημονικά συστήματα γραφής AI θα μπορέσουν να γράψουν συνεκτικά· με βάση το τρέχον επίπεδο ενδιαφέροντος σε αυτόν τον τομέα της Επεξεργασίας Φυσικής Γλώσσας, υποθέτω ότι αυτή η πρόκληση θα λυθεί τελικά.
Αντίθετα, ρωτάω αν ένα σύστημα επιστημονικής γραφής AI θα μπορέσει να ταυτοποιήσει σχετικές επιστημονικές ιστορίες σύμφωνα με τις (πολύ διαφορετικές) επιθυμητές αποτελέσματα των εκδοτών.
Δεν νομίζω ότι είναι επικείμενο· με βάση το ψάξιμο των τίτλων και/ή του κειμένου περίπου 2000 νέων επιστημονικών εργασιών για τη μηχανική μάθηση κάθε εβδομάδα, έχω μια πιο κυニック προοπτική για το βαθμό στον οποίο οι ακαδημαϊκές υποβολές μπορούν να αναλυθούν αλγοριθμικά, είτε για τους σκοπούς της ακαδημαϊκής ευρετηρίασης είτε για την επιστημονική δημοσιογραφία. Όπως συνήθως, είναι αυτοί οι άνθρωποι που εμποδίζουν.
Απαιτήσεις για τον Αυτοματοποιημένο Επιστημονικό Συγγραφέα
Ας εξετάσουμε την πρόκληση της αυτοματοποίησης της επιστημονικής αναφοράς για τις τελευταίες ακαδημαϊκές έρευνες. Για να τη διατηρήσουμε δίκαιη, θα περιορίσουμε κυρίως στο CS κατηγορίες του πολύ δημοφιλούς μη-πληρωμένου τομέα Arxiv από το Πανεπιστήμιο του Κορνέλ, το οποίο έχει τουλάχιστον έναν αριθμό συστηματικών, προτυποποιημένων χαρακτηριστικών που μπορούν να συνδεθούν σε μια πηγή δεδομένων.
Συμπλοκή του Πρότυπου
Ένα επίπεδο συμμόρφωσης και κανονικοποίησης είναι ότι το Arxiv επιβάλλει ένα khá καλά-εφαρμοσμένο πρότυπο για τις υποβολές, και παρέχει λεπτομερείς οδηγίες για τους υποβάλλοντες συγγραφείς. Έτσι, τα έγγραφα γενικά συμμορφώνονται με τα μέρη του πρωτοκόλλου που ισχύουν για το έργο που περιγράφεται.
Κίνηση για Δυσκολίες
Μια ιεραρχία επικεφαλίδων είναι ένας εύκολος τρόπος για τα συστήματα NLP να κατηγοριοποιήσουν αρχικά μπλοκ περιεχομένου. Πολλοί υποβολές στο Arxiv εξάγονται από το Microsoft Word (όπως φαίνεται στα mishandled Arxiv PDF που αφήνουν ‘Microsoft Word’ στην επικεφαλίδα τίτλου – δείτε την εικόνα παρακάτω). Αν χρησιμοποιήσετε σωστές επικεφαλίδες τμήματος στο Word, μια εξαγωγή σε PDF θα αναδημιουργήσει αυτές τις ιεραρχικές επικεφαλίδες που είναι χρήσιμες για τις διαδικασίες εξαγωγής δεδομένων μιας μηχανής αναφοράς.
Κόλλα Κειμένου σε Επιστροφές Παράγραφων
Με PDF και postscript τα πιο συνηθισμένα διαθέσιμα формά Arxiv που υποβάλλονται από τους συγγραφείς, το σύστημα NLP θα χρειαστεί μια διαδικασία για να χωρίσει τα τέλη γραμμών λέξεις από τις αρχές των επόμενων γραμμών λέξεις που συνδέονται με αυτές υπό τις ατυχείς μεθόδους βελτιστοποίησης προεπιλογής του PDF.
Κακό Αγγλικό
Το αγγλικό παραμένει το παγκόσμιο επιστημονικό πρότυπο για την υποβολή επιστημονικών εργασιών, ακόμη και αν αυτό είναι αμφισβητούμενο. Έτσι, ενδιαφέρουσες και καινούργιες εργασίες μπορεί να περιέχουν απαράδεκτα πρότυπα αγγλικής, από μη αγγλόφωνους ερευνητές. Αν η δεξιοτεχνία της αγγλικής γλώσσας περιλαμβάνεται ως μετρική της αξίας όταν ένα σύστημα μηχανής αξιολογεί το έργο, τότε όχι μόνο θα χαθούν καλές ιστορίες, αλλά και pedantic χαμηλότερης αξίας έξοδος θα αξιολογηθεί υψηλότερα απλά και μόνο因为 λέει πολύ λίγα πολύ καλά.
Επιλογή: Καθορισμός Απαιτήσεων Κοινότητας
Θα επιστρέψουμε στα πολλά προβλήματα της αποσύνθεσης εκκεντρικών επιστημονικών εργασιών σε διακριτά δεδομένα σημεία σύντομα. Τώρα, ας εξετάσουμε την κοινότητα και τους στόχους μας,既然 αυτά θα είναι απαραίτητα για να βοηθήσουν τον αυτοματοποιημένο επιστημονικό συγγραφέα να διεισδύσει через χιλιάδες εργασίες την εβδομάδα. Η πρόβλεψη της επιτυχίας των πιθανών ειδήσεων είναι ήδη ενεργός τομέας στη μηχανική μάθηση.
Εντοπισμός Αποτυχίας Υπόθεσης
Λόγω πιέσεων ποσότητας, ακαδημαϊκά τμήματα μπορεί να δημοσιεύσουν έργα όπου η κεντρική υπόθεση έχει αποτύχει完全 (ή σχεδόν完全) σε δοκιμές, ακόμη και αν οι μέθοδοι και τα αποτελέσματα του έργου είναι αξιοπρεπή.
Λευκές Περίπτωσης
Ορισμένες από τις πιο απαίσιες απαιτήσεις που γίνονται σε επιστημονικές εργασίες AI-κεντρικές ασφαλείας αποδεικνύονται να απαιτούν εξαιρετικές και πολύ απίθανες επίπεδα πρόσβασης στο πηγαίο κώδικα ή την πηγαία υποδομή – ‘λευκές περίπτωσης’ επιθέσεις. Αν και αυτό είναι χρήσιμο για την εξαγωγή προηγουμένως άγνωστων ιδιοτήτων στις αρχιτεκτονικές των συστημάτων AI, σχεδόν ποτέ δεν αντιπροσωπεύει μια πραγματικά εκμεταλλεύσιμη επιφάνεια επιθέσεων.
Άλλες ‘Παγίδες’
Άλλες θέσεις όπου η ακαταλληλότητα και η αποτυχία της υπόθεσης μπορούν να οδηγήσουν σε burial είναι στις αφαίρεσης μελετών, οι οποίες απομακρύνουν συστηματικά τα βασικά στοιχεία ενός νέου τύπου ή μεθόδου για να δουν αν τα αποτελέσματα επηρεάζονται αρνητικά, ή αν μια ‘κεντρική’ ανακάλυψη είναι ανθεκτική. Στην πράξη, έγγραφα που περιλαμβάνουν μελέτες αφαίρεσης είναι συνήθως khá βέβαια για τα ευρήματά τους, αν και μια προσεκτική ανάγνωση μπορεί συχνά να ανακαλύψει μια ‘απάτη’.
Αξιολόγηση Επανειλημμένων και ‘Νέας’ Ιστορίας
Εκτός από τη διόρθωση λαθών σε μια προηγούμενη έκδοση, πολύ συχνά η V.2 ενός εγγράφου αντιπροσωπεύει λίγο περισσότερο από το ότι οι συγγραφείς ζητούν την προσοχή που δεν έλαβαν όταν η V.1 δημοσιεύθηκε. Συχνά, ωστόσο, ένα έγγραφο πραγματικά αξίζει μια δεύτερη ευκαιρία, καθώς η προσοχή των μέσων μπορεί να είχε απομακρυνθεί αλλού την ώρα της αρχικής δημοσίευσης, ή το έργο ήταν αποκρυμμένο από υψηλό трафик υποβολών σε περίοδο συνεδρίου (όπως το φθινόπωρο και το τέλος του χειμώνα).
Καθορισμός Διάχυσης
Όπως και οι περισσότεροι δημοσιογράφοι, ο προβλεπόμενος αυτοματοποιημένος επιστημονικός συγγραφέας ψάχνει για ανεported ή υποαναφερόμενες ειδήσεις, για να προσθέσει αξία στο ρεύμα περιεχομένου που υποστηρίζει. Στις περισσότερες περιπτώσεις, η αναδημοσίευση επιστημονικών прорώτων που εμφανίστηκαν για πρώτη φορά σε μεγάλα κανάλια όπως το TechCrunch, The Verge και EurekaAlert κ.λπ. είναι άσκοπη,既然 αυτά τα μεγάλα κανάλια υποστηρίζουν το περιεχόμενό τους με εξαντλητικές μηχανές δημοσιότητας, ουσιαστικά εγγυώμενα τη μέσο μαζικής ενημέρωσης για το έγγραφο.
Πασχαλινά Αυγά
Μερικές φορές, μια ‘ξηρή’ εργασία αποκαλύπτει ευρήματα που έχουν βαθιά και καινούργιες επιπτώσεις, αλλά που είναι υποτιμημένα (ή ακόμη και παραβλεπόμενα) από τους συγγραφείς, και θα αποκαλυφθούν μόνο με την ανάγνωση της ολόκληρης εργασίας και την εκτέλεση των μαθηματικών.
Πέρα από το Arxiv
Θα πρέπει να ληφθεί υπόψη ότι η παραμετροποίηση εργασιών για την επιστήμη υπολογιστών σε διακριτά tokens και οντότητες θα είναι πολύ εύκολη σε ένα τομέα όπως το Arxiv, το οποίο παρέχει μια σειρά από συνεπείς και προτυποποιημένα ‘γάντζους’ για ανάλυση, και δεν απαιτεί συνδέσεις για την περισσότερη λειτουργικότητα.
Ο ‘Κοινωνικός’ Αυτοματοποιημένος Επιστημονικός Συγγραφέας
Πέρα από τον ανοιχτό και προσιτό χώρο του Arxiv και παρόμοιων ‘ανοιχτών’ πλατφόρμων επιστημονικής δημοσίευσης, ακόμη και η απόκτηση πρόσβασης σε ένα ενδιαφέρον νέο έγγραφο μπορεί να είναι μια πρόκληση, που περιλαμβάνει την εύρεση ενός καναλιού επικοινωνίας για έναν συγγραφέα και την προσέγγισή του για να ζητήσετε να διαβάσετε το έργο, και ακόμη να λάβετε παραθέσεις (όπου η πίεση του χρόνου δεν είναι ένας υπερέχων παράγοντας – μια σπάνια περίπτωση για ανθρώπινους επιστημονικούς αναφορείς αυτές τις μέρες).
Τayiποίηση Νέας με AI
Πολλοί από τους αρχές και τις προκλήσεις που περιγράφονται εδώ ισχύουν για το δυναμικό της αυτοματοποίησης σε άλλους τομείς της δημοσιογραφίας, και, όπως πάντα, η ταυτοποίηση μιας πιθανής ιστορίας είναι η κεντρική πρόκληση. Οι περισσότεροι ανθρώπινοι δημοσιογράφοι θα παραδεχθούν ότι η πραγματική γραφή της ιστορίας είναι μόνο το 10% της προσπάθειας, και ότι μέχρι τη στιγμή που το πληκτρολόγιο χτυπά, το έργο είναι几乎 ολοκληρωμένο.
Επιλογή Νέας με AI
Η ανάπτυξη συστημάτων AI που μπορούν να ανακαλύψουν, να ερευνήσουν και να πιστοποιήσουν μια ιστορία, με βάση τις πολλές απαιτήσεις της δημοσιογραφίας, και διασχίζοντας ένα τεράστιο εύρος πλατφόρμων που είναι ήδη σκληρά ενάντια στην εξέταση και την εξαγωγή, ανθρώπινες ή άλλες.












