Connect with us

Μοντέλα Γραπτής Συγγραφής Βασισμένα στο AI Συχνά ‘Αντιγράφουν και Επικολλάν’ Δεδομένα Πηγής

Τεχνητή νοημοσύνη

Μοντέλα Γραπτής Συγγραφής Βασισμένα στο AI Συχνά ‘Αντιγράφουν και Επικολλάν’ Δεδομένα Πηγής

mm

Ο Αμερικανός δραματουργός και επιχειρηματίας Wilson Mizner αναφέρεται συχνά ως ο famoso που είπε ‘Όταν κλέβεις από έναν συγγραφέα, είναι πλαγιαρισμός· αν κλέβεις από πολλούς, είναι έρευνα’.

Συναχθεί το ίδιο με την υπόθεση γύρω από τη νέα γενιά των συστημάτων γραπτής συγγραφής βασισμένων στο AI είναι ότι τα τεράστια δεδομένα που τροφοδοτούνται σε αυτά κατά τη διάρκεια της εκπαίδευσης έχουν οδηγήσει σε μια πραγματική αφαίρεση υψηλού επιπέδου εννοιών και ιδεών· ότι αυτά τα συστήματα έχουν στη διάθεσή τους τη συντεθειμένη σοφία χιλιάδων συντελεστών συγγραφέων, από την οποία το AI μπορεί να διαμορφώσει καινοτόμες και πρωτότυπες γραπτές εργασίες· και ότι όσοι χρησιμοποιούν τέτοια συστήματα μπορούν να είναι βέβαιοι ότι δεν συμμετέχουν ακούσια σε πλαγιαρισμό-με-μεσάζοντα.

Αυτή η υπόθεση αμφισβητείται από μια νέα μελέτη από一个 ερευνητικό consortium (συμπεριλαμβανομένων των ερευνητικών τμημάτων του Facebook και της Microsoft), η οποία έχει διαπιστώσει ότι τα μοντέλα γενετικών γλωσσών μάθησης όπως η σειρά GPT ‘σποραδικά αντιγράφουν ακόμη και πολύ μακρές περικοπές’ στο υποτιθέμενο πρωτότυπο αποτέλεσμα, χωρίς αναφορά.

Σε ορισμένες περιπτώσεις, οι συγγραφείς σημειώνουν, η GPT-2 θα διπλώσει πάνω από 1.000 λέξεις από το σύνολο εκπαίδευσης στην έξοδο.

Το έγγραφο έχει τον τίτλο Πόσο αντιγράφουν τα γλωσσικά μοντέλα από τα δεδομένα εκπαίδευσής τους; Αξιολόγηση γλωσσικής καινοτομίας στη γενετική σύνθεση κειμένου χρησιμοποιώντας RAVEN, και είναι μια συνεργασία μεταξύ του Πανεπιστημίου Johns Hopkins, της Microsoft Research, του Πανεπιστημίου της Νέας Υόρκης και του Facebook AI Research.

RAVEN

Η μελέτη χρησιμοποιεί μια νέα προσέγγιση που ονομάζεται RAVEN (RAtingVErbalNovelty), ένα ακρωνύμιο που έχει υποστεί διασκέδαση για να αντικατοπτρίζει τον κακό της κλασικής ποίησης:

‘Αυτό το ακρωνύμιο αναφέρεται στο “Το Κοράκι” του Edgar Allan Poe, στο οποίο ο αφηγητής συναντά ένα μυστηριώδες κοράκι που επαναλαμβάνει συνεχώς, “Ποτέ ξανά!” Ο αφηγητής δεν μπορεί να πει αν το κοράκι απλώς επαναλαμβάνει κάτι που άκουσε ένας άνθρωπος να λέει, ή αν κατασκευάζει τις δικές του εκφράσεις (ίσως συνδυάζοντας ποτέ και ξανά)—τη mesma αμφιβολία που η εργασία μας αντιμετωπίζει.’

Τα ευρήματα από τη νέα μελέτη έρχονται στο πλαίσιο της μεγάλης αύξησης των συστημάτων γραπτής συγγραφής AI που επιδιώκουν να αντικαταστήσουν ‘απλές’ εργασίες επεξεργασίας, και ακόμη και να γράψουν πλήρεις περιεχοόμενα. Ένα τέτοιο σύστημα έλαβε $21 εκατομμύρια σε σειρά A χρηματοδότησης την περασμένη εβδομάδα.

Οι ερευνητές σημειώνουν ότι ‘Η GPT-2 đôiότερες φορές διπλώσει περικοπές εκπαίδευσης που είναι πάνω από 1.000 λέξεις. (η έμφαση τους), και ότι τα γενετικά γλωσσικά συστήματα προπαγανδίζουν γλωσσικά λάθη στα δεδομένα πηγής.

Τα γλωσσικά μοντέλα που μελετήθηκαν υπό το RAVEN ήταν η σειρά GPT εκδόσεων μέχρι την GPT-2 (οι συγγραφείς δεν είχαν πρόσβαση εκείνη την εποχή στην GPT-3), ένας Transformer, Transformer-XL, και ένας LSTM.

Νοβελτί

Το έγγραφο σημειώνει ότι η GPT-2 δημιουργεί Bush 2-στυλ επιρρήματα όπως ‘Ελβετοποιήθηκε’, και παραγωγές όπως ‘IKEA-νότητα’, δημιουργώντας τέτοιες καινοτόμες λέξεις (δεν εμφανίζονται στα δεδομένα εκπαίδευσης της GPT-2) με γλωσσικές αρχές που προέρχονται από υψηλότερες διαστάσεις που καθορίζονται κατά τη διάρκεια της εκπαίδευσης.

Τα αποτελέσματα δείχνουν επίσης ότι ‘74% των προτάσεων που παράγονται από τον Transformer-XL έχουν μια συντακτική δομή που δεν έχει καμία πρόταση εκπαίδευσης’, υποδεικνύοντας, όπως οι συγγραφείς αναφέρουν, ‘τα νευρωνικά γλωσσικά μοντέλα δεν απλώς θυμάονται· αντίθετα, χρησιμοποιούν παραγωγικές διαδικασίες που τους επιτρέπουν να συνδυάζουν οικείες partes με καινοτόμους τρόπους.’

Έτσι, τεχνικά, η γενίκευση και η αφαίρεση πρέπει να παράγουν καινοτόμικο και πρωτότυπο κείμενο.

Η Δублиοποίηση Δεδομένων Μπορεί Να Είναι Το Πρόβλημα

Το έγγραφο θεωρεί ότι οι μακρές και κατά λέξη παραθέσεις που παράγονται από τα συστήματα NLG θα μπορούσαν να ‘ψηθούν’ ολόκληρα στο μοντέλο AI επειδή το αρχικό κείμενο πηγής επαναλαμβάνεται πολλές φορές σε συνόλους δεδομένων που δεν έχουν αποδεδοποιηθεί επαρκώς.

Αν και ένα άλλο ερευνητικό έργο έχει βρει ότι η πλήρης δублиοποίηση κειμένου μπορεί να συμβεί ακόμη και αν το αρχικό κείμενο εμφανίζεται μόνο μια φορά στο σύνολο δεδομένων, οι συγγραφείς σημειώνουν ότι το έργο έχει διαφορετικές концептуαλιστικές αρχιτεκτονικές από το κοινό σύνολο συστημάτων γραπτής συγγραφής.

Οι συγγραφείς παρατηρούν επίσης ότι η αλλαγή του συνιστωσού αποκωδικοποίησης στα συστήματα γενετικής σύνθεσης κειμένου θα μπορούσε να αυξήσει τη καινοτομία, αλλά βρήκαν σε δοκιμές ότι αυτό συμβαίνει με το κόστος της ποιότητας της εξόδου.

Πρόσθετα προβλήματα προκύπτουν καθώς τα συνόλα δεδομένων που τροφοδοτούν τις αλγορίθμους γραπτής συγγραφής μεγαλώνουν. Εκτός από το ότι επιδεινώνουν τα προβλήματα γύρω από τη διαθεσιμότητα και τη βιωσιμότητα της προεπεξεργασίας δεδομένων, καθώς και την ποιότητα και την αποδεδοποίηση των δεδομένων, πολλά βασικά λάθη παραμένουν στα δεδομένα πηγής, τα οποία στη συνέχεια προπαγανδίζονται στο περιεχόμενο εξόδου από το AI.

Οι συγγραφείς σημειώνουν*:

‘Οι πρόσφατες αύξεις των μεγεθών συνόλων εκπαίδευσης καθιστούν ιδιαίτερα κρίσιμο να ελέγξουμε τη καινοτομία γιατί το μέγεθος αυτών των συνόλων εκπαίδευσης μπορεί να σπάσει τις εννοίες μας για το τι μπορεί να συμβεί φυσικά. Για παράδειγμα, κάποια αξιοσημείωτη εργασία στη γλώσσα αποκτηση βασίζεται στην υπόθεση ότι τα κανονικά ρήματα του παρελθόντος των ανώμαλων ρημάτων (π.χ. becomed, teached) δεν εμφανίζονται στην εμπειρία του μαθητή, οπότε αν ο μαθητής παράγει τέτοιες λέξεις, πρέπει να είναι καινοτόμες για τον μαθητή.

‘Ωστόσο, αποδείχθηκε ότι, για όλα τα 92 βασικά ανώμαλα ρήματα στην αγγλική, η λανθασμένη κανονική μορφή εμφανίζεται στο σύνολο εκπαίδευσης της GPT-2.’

Περισσότερη Κύρωση Δεδομένων Απαιτείται

Το έγγραφο υποστηρίζει ότι πρέπει να δοθεί περισσότερη προσοχή στη καινοτομία στη διαμόρφωση γενετικών γλωσσικών συστημάτων, με ιδιαίτερη έμφαση στην εξασφάλιση ότι το ‘κρατημένο’ τμήμα δοκιμής των δεδομένων (το τμήμα των δεδομένων πηγής που κρατείται για να δοκιμαστεί πόσο καλά το τελικό αλγόριθμο έχει αξιολογήσει το κύριο σώμα των εκπαιδευμένων δεδομένων) είναι κατάλληλο για την εργασία.

‘Στη μηχανική μάθηση, είναι κρίσιμο να αξιολογήσουμε τα μοντέλα σε ένα κρατημένο σύνολο δοκιμών. Λόγω της ανοιχτής φύσης της γενετικής σύνθεσης κειμένου, το κείμενο που παράγεται από το μοντέλο μπορεί να αντιγραφεί από το σύνολο εκπαίδευσης, στην οποία περίπτωση δεν είναι κρατημένο—ώστε να χρησιμοποιηθεί αυτή η δεδομένα για να αξιολογήσουμε το μοντέλο (π.χ. για συνάφεια ή γραμματική) δεν είναι έγκυρο.’

Οι συγγραφείς υποστηρίζουν επίσης ότι περισσότερη φροντίδα απαιτείται στην παραγωγή γλωσσικών μοντέλων λόγω του Εφέ Eliza, ενός συνδρόμου που पहचάθηκε το 1966 το οποίο αναγνώρισε “τη διάθεση των ανθρώπων να διαβάζουν πολύ περισσότερη κατανόηση από ό,τι δικαιολογείται σε σειρές συμβόλων—ειδικά λέξεις—συνδυασμένες από υπολογιστές”.

 

* Η μετατροπή μου των εσωτερικών αναφορών σε υπερσυνδέσμους

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]