στέλεχος Η γλώσσα που δημιουργείται από το AI αρχίζει να μολύνει την επιστημονική βιβλιογραφία - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Η γλώσσα που δημιουργείται από την τεχνητή νοημοσύνη αρχίζει να μολύνει την επιστημονική βιβλιογραφία

mm
Ενημερώθηκε on

Ερευνητές από τη Γαλλία και τη Ρωσία δημοσίευσαν μια μελέτη που δείχνει ότι η χρήση πιθανοτικών παραγωγών κειμένου που βασίζονται σε τεχνητή νοημοσύνη, όπως το GPT-3, εισάγει «βασανισμένη γλώσσα», αναφορές ανύπαρκτης βιβλιογραφίας και ad hoc, μη αναγνωρισμένη επαναχρησιμοποίηση εικόνων σε προηγουμένως αξιοσέβαστα κανάλια για η έκδοση νέας επιστημονικής βιβλιογραφίας.

Ίσως το πιο ανησυχητικό είναι ότι οι εργασίες που μελετήθηκαν περιέχουν επίσης επιστημονικά ανακριβές ή μη αναπαραγώγιμο περιεχόμενο που παρουσιάζεται ως καρπός αντικειμενικής και συστηματικής έρευνας, υποδεικνύοντας ότι τα παραγωγικά γλωσσικά μοντέλα χρησιμοποιούνται όχι μόνο για να ενισχύσουν τις περιορισμένες αγγλικές δεξιότητες των συγγραφέων των εργασιών. αλλά στην πραγματικότητα να κάνει τη σκληρή δουλειά που απαιτείται (και, πάντα, να την κάνει άσχημα).

Η αναφέρουν, Με τίτλο Βασανισμένες φράσεις: Ένα αμφίβολο στυλ γραφής που αναδύεται στην επιστήμη, έχει συγκεντρωθεί από ερευνητές από το Τμήμα Επιστήμης Υπολογιστών στο Πανεπιστήμιο της Τουλούζης και τον ερευνητή της Yandex Alexander Magazinov, επί του παρόντος στο Πανεπιστήμιο του Τελ Αβίβ.

Η μελέτη επικεντρώνεται ιδιαίτερα στην ανάπτυξη των παράλογων επιστημονικών δημοσιεύσεων που δημιουργούνται από την τεχνητή νοημοσύνη στο Elsevier Journal Μικροεπεξεργαστές και Μικροσυστήματα.

Με οποιοδήποτε άλλο όνομα

Τα αυτοπαλινδρομικά γλωσσικά μοντέλα όπως το GPT-3 εκπαιδεύονται σε μεγάλους όγκους δεδομένων και έχουν σχεδιαστεί για να παραφράζουν, να συνοψίζουν, να συγκεντρώνουν και να ερμηνεύουν αυτά τα δεδομένα που συνεισφέρουν σε συνεκτικά παραγωγικά γλωσσικά μοντέλα που είναι ικανά να αναπαράγουν φυσικά μοτίβα ομιλίας και γραφής, διατηρώντας το πρωτότυπο πρόθεση των δεδομένων εκπαίδευσης.

Δεδομένου ότι τέτοια πλαίσια τιμωρούνται συχνά στο στάδιο εκπαίδευσης του μοντέλου για την προσφορά άμεσης και «μη απορροφημένης» επαναφοράς των αρχικών δεδομένων, αναπόφευκτα αναζητούν συνώνυμα – ακόμη και για καθιερωμένες φράσεις.

Οι προφανώς επιστημονικές υποβολές που έχουν δημιουργηθεί/βοηθηθεί από την τεχνητή νοημοσύνη που ανακαλύφθηκαν από τους ερευνητές περιλαμβάνουν έναν εξαιρετικό αριθμό αποτυχημένων προσπαθειών για δημιουργικά συνώνυμα για γνωστές φράσεις στον τομέα της μηχανικής μάθησης:

βαθύ νευρωνικό δίκτυο:βαθιά νευρική οργάνωση»
τεχνητό νευρωνικό δίκτυοk: "(ψεύτικο | πλαστό) νευρωνικό οργανισμό"
δίκτυο κινητής τηλεφωνίας: »ευέλικτη οργάνωση»
επίθεση δικτύου: »οργάνωση (ενέδρα | επίθεση)»
σύνδεση δικτύου: «σύλλογος οργάνωσης»
μεγάλα δεδομένα: »(τεράστια | τεράστια | τεράστια | κολοσσιαία) πληροφορίες'
αποθήκη δεδομένων: «πληροφορίες (αποθήκη | κέντρο διανομής)»
τεχνητή νοημοσύνη (AI): «(πλαστό | ανθρωπογενής) συνείδηση»
υπολογιστές υψηλής απόδοσης: "εκτίμηση της ελίτ"
ομίχλη/ομίχλη/υπολογιστική σύννεφο: «κατασκευή ομίχλης»
μονάδα επεξεργασίας γραφικών (GPU): «μονάδα προετοιμασίας σχεδίων»
κεντρική μονάδα επεξεργασίας (CPU): «εστιακή μονάδα προετοιμασίας»
κινητήρας ροής εργασίας: "μοτέρ διαδικασίας εργασίας"
αναγνώριση προσώπου: «αναγνώριση προσώπου»
αναγνώριση φωνής: «αναγνώριση λόγου»
μέσο τετραγωνικό σφάλμα: "μέσο τετράγωνο (λάθος | γκάφα)"
μέσο απόλυτο σφάλμα: «μέσος (απόλυτη | υπέρτατη) (λάθος | γκάφα)»
σήμα σε θόρυβο: "(κίνηση | σημαία | ένδειξη | σημάδι | σήμα) προς (θόρυβος | ταραχή | θόρυβος)»
καθολικές παράμετροι: «Παγκόσμιες παράμετροι»
τυχαία πρόσβαση: «(αυθαίρετο | ακανόνιστο) αποκτώ δικαίωμα μετάβασης σε»
τυχαίο δάσος: «(αυθαίρετο | ακανόνιστο) (backwoods | ξυλεία | καταπράσινη περιοχή)»
τυχαία τιμή: «(αυθαίρετη | ακανόνιστη) εκτίμηση»
αποικία μυρμηγκιών: «υπόγειο έντομο (πολιτεία | επαρχία | περιοχή | περιοχή | οικισμός)»
αποικία μυρμηγκιών: «υπόγειο ανατριχιαστικό ερπυστριοφόρο (πολιτεία | επαρχία | περιοχή | περιοχή | οικισμός)»
υπολειπόμενη ενέργεια: «υπόλοιπη ζωτικότητα»
κινητική ενέργεια: «κινητική ζωτικότητα»
αφελής Bayes: «(εύπιστος | αθώος | ευκολόπιστος) Bayes»
προσωπικός ψηφιακός βοηθός (PDA): «ατομικός μηχανογραφημένος συνεργάτης»

Τον Μάιο του 2021 οι ερευνητές ρώτησαν το Διαστάσεις ακαδημαϊκή μηχανή αναζήτησης σε αναζήτηση αυτού του είδους μπερδεμένης, αυτοματοποιημένης γλώσσας, φροντίζοντας να αποκλείει νόμιμες φράσεις όπως «τεράστιες πληροφορίες» (η οποία είναι έγκυρη φράση και όχι αποτυχημένο συνώνυμο του «μεγάλα δεδομένα»). Σε αυτό το σημείο παρατήρησαν ότι Μικροεπεξεργαστές και Μικροσυστήματα είχε τον μεγαλύτερο αριθμό περιπτώσεων λανθασμένης παράφρασης.

Προς το παρόν, είναι ακόμα δυνατό ανακτήσετε (στιγμιότυπο αρχείου, 15/07/2021) μια σειρά από επιστημονικές εργασίες για τη ανόητη φράση «βαθιά νευρωνική οργάνωση» (δηλαδή «βαθύ νευρωνικό δίκτυο») και άλλες στην παραπάνω λίστα έχουν παρόμοιες επιτυχίες.

Αποτελέσματα αναζήτησης για «βαθιά νευρωνική οργάνωση» («βαθύ νευρωνικό δίκτυο») στο Dimensions. Πηγή: https://app.dimensions.ai/

Αποτελέσματα αναζήτησης για «βαθιά νευρωνική οργάνωση» («βαθύ νευρωνικό δίκτυο») στο Dimensions. Πηγή: https://app.dimensions.ai/

Η Μικροεπεξεργαστές Το περιοδικό ιδρύθηκε το 1976 και μετονομάστηκε σε Μικροεπεξεργαστές και Μικροσυστήματα δύο χρόνια αργότερα.

Μια ανάπτυξη της ανοησίας γλώσσας

Οι ερευνητές μελέτησαν μια περίοδο που κάλυπτε τον Φεβρουάριο του 2018 έως τον Ιούνιο του 2021 και παρατήρησαν μια απότομη αύξηση στον όγκο των υποβολών τα τελευταία δύο χρόνια, και ιδιαίτερα τους τελευταίους 6-8 μήνες:

Συσχέτιση ή αιτιότητα; Η άνοδος των υποβολών στο περιοδικό Microprocessors and Microsystems φαίνεται να συμπίπτει με την αύξηση του «ανόητου» κειμένου και των συνωνύμων σε προφανώς αξιοσέβαστες υποβολές. Πηγή: https://arxiv.org/pdf/2107.06751.pdf

Συσχέτιση ή αιτιότητα; Η άνοδος των υποβολών στο περιοδικό Microprocessors and Microsystems φαίνεται να συμπίπτει με την αύξηση του «ανόητου» κειμένου και των συνωνύμων σε προφανώς αξιοσέβαστες υποβολές. Πηγή: https://arxiv.org/pdf/2107.06751.pdf

Το τελικό σύνολο δεδομένων που συγκεντρώθηκε από τους συνεργάτες περιέχει 1,078 πλήρη άρθρα που ελήφθησαν μέσω της συνδρομής Elsevier του Πανεπιστημίου της Τουλούζης.

Μειωμένη εκδοτική επίβλεψη για κινεζικές επιστημονικές εργασίες

Η εφημερίδα παρατηρεί ότι η χρονική περίοδος που προβλέπεται για τη συντακτική αξιολόγηση των επισημασμένων υποβολών μειώνεται ριζικά το 2021, πέφτοντας κάτω από τις 40 ημέρες. εξαπλάσια μείωση του τυπικού χρόνου για αξιολόγηση από ομοτίμους, εμφανής από τον Φεβρουάριο του 2021.

Ο μεγαλύτερος αριθμός επισημασμένων άρθρων προέρχεται από συγγραφείς που συνδέονται με την ηπειρωτική Κίνα: από τις 404 εργασίες που έγιναν δεκτές σε λιγότερο από 30 ημέρες, το 97.5% σχετίζονται με την Κίνα. Αντίθετα, σε περιπτώσεις όπου η διαδικασία σύνταξης υπερέβαινε τις 40 ημέρες (615 δημοσιεύσεις), οι υποβολές που σχετίζονται με την Κίνα αντιπροσώπευαν μόνο το 9.5% αυτής της κατηγορίας – μια δεκαπλάσια ανισορροπία.

Η έκθεση αποδίδει τη διείσδυση των επισημασμένων εγγράφων σε ελλείψεις στη διαδικασία σύνταξης και σε πιθανή έλλειψη πόρων ενόψει του αυξανόμενου αριθμού υποβολών.

Οι ερευνητές υποθέτουν ότι τα μοντέλα παραγωγής τύπου GPT και παρόμοιοι τύποι πλαισίων δημιουργίας γλώσσας έχουν χρησιμοποιηθεί για την παραγωγή μεγάλου μέρους του κειμένου στα επισημασμένα έγγραφα. Ωστόσο, ο τρόπος με τον οποίο ένα παραγωγικό μοντέλο αφαιρεί τις πηγές του το καθιστά δύσκολο να αποδειχθεί, και η κύρια απόδειξη βρίσκεται σε μια κοινή λογική αξιολόγηση φτωχών και περιττών συνωνύμων και σε μια σχολαστική εξέταση της λογικής συνοχής της υποβολής.

Οι ερευνητές παρατηρούν περαιτέρω ότι τα παραγωγικά γλωσσικά μοντέλα που πιστεύουν ότι συμβάλλουν σε αυτή την πλημμύρα ανοησίας είναι ικανά όχι μόνο να δημιουργήσουν τα προβληματικά κείμενα, αλλά και να τα αναγνωρίσουν και να τα επισημάνουν συστηματικά, με τον ίδιο τρόπο που έχουν πραγματοποιήσει οι ίδιοι οι ερευνητές. χειροκίνητα. Η εργασία περιγράφει λεπτομερώς μια τέτοια υλοποίηση, χρησιμοποιώντας το GPT-2, και προσφέρει ένα πλαίσιο για μελλοντικά συστήματα για τον εντοπισμό προβληματικών επιστημονικών υποβολών.

Η συχνότητα των «μολυσμένων» υποβολών είναι πολύ υψηλότερη στο περιοδικό Elsevier (72.1%) σε σύγκριση με άλλα περιοδικά που μελετήθηκαν (13.6% το μέγιστο).

Όχι μόνο Σημασιολογία

Οι ερευνητές τονίζουν ότι πολλά από τα εν λόγω περιοδικά δεν χρησιμοποιούν απλώς λάθος γλώσσα, αλλά περιέχουν επιστημονικά ανακριβείς δηλώσεις, υποδεικνύοντας την πιθανότητα ότι τα παραγωγικά γλωσσικά μοντέλα δεν χρησιμοποιούνται απλώς για τη βελτίωση των περιορισμένων γλωσσικών δεξιοτήτων των επιστημόνων που συνεισφέρουν, αλλά μπορεί στην πραγματικότητα να χρησιμοποιείται για τη διατύπωση τουλάχιστον ορισμένων από τα βασικά θεωρήματα και τα δεδομένα της εργασίας.

Σε άλλες περιπτώσεις, οι ερευνητές θέτουν μια αποτελεσματική «ανασύνθεση» ή «περιστροφή» αφηρημένης (και ανώτερης) προηγούμενης εργασίας, προκειμένου να ανταποκριθούν στις πιέσεις των ακαδημαϊκών ερευνητικών κουλτούρων «δημοσιεύστε ή αφανιστούν» και πιθανώς για να βελτιώσουν τις εθνικές κατατάξεις για παγκόσμια προ- εξέχουσα θέση στην έρευνα της τεχνητής νοημοσύνης, μέσω του τεράστιου όγκου.

Ανούσιο περιεχόμενο σε μια υποβληθείσα εργασία. Σε αυτήν την περίπτωση, οι ερευνητές διαπίστωσαν ότι το κείμενο προήλθε, ad hoc, από ένα άρθρο του EDN, από όπου η συνοδευτική εικόνα έχει επίσης κλαπεί χωρίς αναφορά. Η επανεγγραφή του αρχικού περιεχομένου είναι τόσο ακραία που το καθιστά ανούσιο.

Ανούσιο περιεχόμενο σε μια υποβληθείσα εργασία. Σε αυτήν την περίπτωση, οι ερευνητές διαπίστωσαν ότι το κείμενο έχει προέλθει, ad hoc, από ένα άρθρο EDN, από όπου και η συνοδευτική εικονογράφηση κλέβεται χωρίς απόδοση. Η επανεγγραφή του αρχικού περιεχομένου είναι τόσο ακραία που το καθιστά ανούσιο.

Αναλύοντας αρκετές από τις υποβληθείσες εργασίες του Elsevier, οι ερευνητές βρήκαν προτάσεις για τις οποίες δεν κατάφεραν να συμπεράνουν κάποιο νόημα. Αναφορές σε ανύπαρκτη βιβλιογραφία. αναφορές σε μεταβλητές και θεωρήματα σε τύπους που στην πραγματικότητα δεν εμφανίζονταν στο υποστηρικτικό υλικό (που προτείνει αφαίρεση με βάση τη γλώσσα ή «παραίσθηση«προφανώς πραγματικά δεδομένα)· και επαναχρησιμοποίηση εικόνων χωρίς αναγνώριση των πηγών τους (τις οποίες οι ερευνητές επικρίνουν όχι από άποψη πνευματικών δικαιωμάτων, αλλά μάλλον ως ένδειξη ανεπαρκούς επιστημονικής αυστηρότητας).

Αποτυχίες παραπομπών

Οι παραπομπές που προορίζονταν να υποστηρίξουν τα επιχειρήματα σε μια επιστημονική εργασία βρέθηκαν σε πολλά από τα επισημασμένα παραδείγματα ότι «είναι σπασμένα ή οδηγούσαν σε άσχετες δημοσιεύσεις».

Επιπλέον, οι αναφορές σε «σχετική εργασία» προφανώς συχνά περιλαμβάνουν συγγραφείς που οι ερευνητές πιστεύουν ότι είχαν «παραισθήσεις» από ένα σύστημα τύπου GPT.

Περιπλανώμενη προσοχή

Ένα άλλο μειονέκτημα ακόμη και μοντέλων γλώσσας τελευταίας τεχνολογίας, όπως το GPT-3, είναι η τάση τους να χάνουν την εστίασή τους σε μια μακρά συζήτηση. Οι ερευνητές ανακάλυψαν ότι τα επισημασμένα έγγραφα συχνά αναδεικνύουν ένα θέμα νωρίς στην εργασία στο οποίο στην πραγματικότητα δεν επιστρέφεται ποτέ μετά την αρχική παρουσίασή του σε προκαταρκτικές σημειώσεις ή αλλού.

Θεωρούν επίσης ότι μερικά από τα χειρότερα παραδείγματα συμβαίνουν μέσα από πολλαπλές διαδρομές του κειμένου πηγής μέσω μιας σειράς μεταφραστικών μηχανών, καθεμία από τις οποίες παραμορφώνει περαιτέρω το νόημα.

Πηγές και Λόγοι

Προσπαθώντας να διακρίνουν τι κρύβεται πίσω από αυτό το φαινόμενο, οι συγγραφείς της εργασίας προτείνουν μια σειρά από πιθανότητες: ότι το περιεχόμενο από χαρτοβιομηχανίες χρησιμοποιούνται ως υλικό πηγής, εισάγοντας ανακρίβειες πολύ νωρίς σε μια διαδικασία που αναπόφευκτα θα προκαλέσει περαιτέρω ανακρίβειες· Ότι εργαλεία περιστροφής άρθρων όπως το Spinbot χρησιμοποιούνται για την κάλυψη της λογοκλοπής. και ότι η συντριπτική πίεση για τακτική δημοσίευση οδηγεί τους ερευνητές που δεν διαθέτουν πόρους να χρησιμοποιούν συστήματα τύπου GPT-3 είτε για να αυξήσουν είτε για να δημιουργήσουν εντελώς νέες ακαδημαϊκές εργασίες.

Οι ερευνητές κλείνουν με μια έκκληση για δράση για μεγαλύτερη εποπτεία και βελτιωμένα πρότυπα σε έναν τομέα ακαδημαϊκών εκδόσεων που αποδεικνύεται, προφανώς, ότι γίνεται τροφή για το δικό του αντικείμενο - συστήματα μηχανικής μάθησης. Επίσης, ζητούν από τον Elsevier και άλλους εκδότες να εισαγάγουν πιο αυστηρές διαδικασίες ελέγχου και επανεξέτασης και επικρίνουν ευρέως τα τρέχοντα πρότυπα και πρακτικές σχετικά με αυτό το θέμα, προτείνοντας ότι «Η εξαπάτηση με συνθετικά κείμενα απειλεί την ακεραιότητα της επιστημονικής βιβλιογραφίας ».