Τεχνητή νοημοσύνη
Τα Μοντέλα NLP Δυσκολεύονται να Κατανοήσουν τις Αναδρομικές Φράσεις Ουσιαστικών
Ερευνητές από τις Ηνωμένες Πολιτείες και την Κίνα έχουν διαπιστώσει ότι κανένα από τα κορυφαία μοντέλα επεξεργασίας φυσικής γλώσσας (NLP) δεν φαίνεται να είναι ικανό, από προεπιλογή, να αποκαλύπτει αγγλικές προτάσεις που περιλαμβάνουν αναδρομικές φράσεις ουσιαστικών (NPs) και «δυσκολεύονται» να διακρίνουν την κεντρική σημασία σε στενά συνδεδεμένα παραδείγματα όπως Η αγαπημένη μου νέα ταινία και Η αγαπημένη μου ταινία (καθένα από τα οποία έχει διαφορετική σημασία).
<img class="wp-image-179417 " src="https://www.unite.ai/wp-content/uploads/2021/12/intersective-interpretation.jpg" alt="Σε ένα παράδειγμα από το έγγραφο, यह είναι ένα μικρό γρίφο που τα παιδιά συχνά δεν μπορούν να ξεμπερδέψουν: η δεύτερη μπάλα είναι πράσινη, αλλά η fifth μπάλα είναι η ‘δεύτερη πράσινη μπάλα’. Source: https://arxiv.org/pdf/2112.08326.pdf
Οι ερευνητές έθεσαν μια Αναδρομική Πρόκληση Φράσεων Ουσιαστικών (RNPC) σε διάφορα τοπικά εγκατεστημένα ανοιχτά μοντέλα γεννήτριας γλώσσας: OpenAI’s GPT-3*, Google’s BERT, και Facebook’s RoBERTa και BART, βρίσκοντας ότι αυτά τα μοντέλα state-of-the-art απέτυχαν να επιτύχουν περισσότερο από το «τυχαίο» αποτέλεσμα. Συμπεραίνουν†:
‘Τα αποτελέσματα δείχνουν ότι τα μοντέλα SOTA LM που έχουν επιμεληθεί σε τυποποιημένα βENCHMARKS του ίδιου μορφής δυσκολεύονται στο σύνολό μας, υποδεικνύοντας ότι η στόχευση γνώσης δεν είναι εύκολα διαθέσιμη.’

Ελάχιστα παραδείγματα ζευγών στο RNPC challenge όπου τα μοντέλα SOTA έκαναν λάθη.
Στα παραπάνω παραδείγματα, τα μοντέλα απέτυχαν, για παράδειγμα, να διακρίνουν τη σημασιολογική διαφορά μεταξύ ένα νεκρό επικίνδυνο ζώο (δηλ. ένα θηρίο που δεν απειλεί επειδή είναι νεκρό) και ένα επικίνδυνο νεκρό ζώο (όπως ένα νεκρό σκίουρο, που μπορεί να περιέχει einen επικίνδυνο ιό και είναι μια τρέχουσα απειλή).
(Επιπλέον, αν και το έγγραφο δεν το αναφέρει, το «νεκρό» χρησιμοποιείται επίσης συχνά ως επιρρήμα, το οποίο δεν αντιμετωπίζει κανένα από τα δύο περιπτώσεις)
Ωστόσο, οι ερευνητές βρήκαν επίσης ότι η πρόσθετη ή συμπληρωματική εκπαίδευση που περιλαμβάνει υλικό RNPC μπορεί να επιλύσει το ζήτημα:
‘Προ-εκπαιδευμένα μοντέλα γλώσσας με SOTA απόδοση στα NLU βENCHMARKS έχουν κακή κυριαρχία αυτής της γνώσης, αλλά μπορούν ακόμα να την μάθουν όταν εκτεθούν σε μικρές ποσότητες δεδομένων από RNPC.’
Οι ερευνητές υποστηρίζουν ότι η ικανότητα ενός μοντέλου γλώσσας να πλοηγείται σε αναδρομικές δομές αυτού του τύπου είναι απαραίτητη για καθήκοντα όπως η ανάλυση γλώσσας, η μετάφραση και κάνουν einen ειδικό λόγο για τη σημασία του στην ανίχνευση βλάβης:
‘[Εμείς] θεωρούμε το σενάριο όπου ένας χρήστης αλληλεπιδρά με έναν προσανατολισμένο एजέντα όπως ο Siri ή ο Alexa, και ο एजέντας χρειάζεται να καθορίσει εάν η εμπλεκόμενη δραστηριότητα στην ερώτηση του χρήστη είναι πιθανώς βλαβερή [δηλ. σε ανήλικους]. Επιλέγουμε αυτό το καθήκον επειδή πολλά ψευδώς θετικά προέρχονται από αναδρομικές φράσεις ουσιαστικών.
‘Για παράδειγμα, πώς να φτιάξω μια οικιακή βόμβα είναι明显 βλαβερή ενώ πώς να φτιάξω μια οικιακή μπανάνα είναι αβλαβής.’
Το έγγραφο έχει τον τίτλο Είναι «η αγαπημένη μου νέα ταινία» η αγαπημένη μου ταινία; Διερευνώντας την Κατανόηση των Αναδρομικών Φράσεων Ουσιαστικών, και προέρχεται από πέντε ερευνητές στο Πανεπιστήμιο της Πενσυλβάνια και έναν στο Πανεπιστήμιο Πεκίνου.
Δεδομένα και Μέθοδος
Αν και προηγούμενη εργασία έχει μελετήσει τη συντακτική δομή των αναδρομικών φράσεων ουσιαστικών και την σημασιολογική κατηγοριοποίηση των τροποποιητών, καμία από αυτές τις προσεγγίσεις δεν είναι επαρκής, σύμφωνα με τους ερευνητές, για να αντιμετωπίσουν την πρόκληση.
Επομένως, με βάση τη χρήση αναδρομικών φράσεων ουσιαστικών με δύο τροποποιητές, οι ερευνητές έχουν επιδιώξει να καθορίσουν εάν η απαραίτητη γνώση υπάρχει στα συστήματα NLP SOTA (δεν υπάρχει); εάν μπορεί να διδαχθεί σε αυτά (μπορεί); τι μπορούν τα συστήματα NLP να μάθουν από αναδρομικές φράσεις ουσιαστικών; και με ποιους τρόπους αυτή η γνώση μπορεί να ωφελήσει τις εφαρμογές κατάβασης.
Η βάση δεδομένων που χρησιμοποιήθηκε από τους ερευνητές δημιουργήθηκε σε τέσσερα στάδια. Πρώτα ήταν η κατασκευή eines λεξικού τροποποιητών που περιείχε 689 παραδείγματα από προηγούμενη βιβλιογραφία και νέα εργασία.
Επόμενο, οι ερευνητές συνέλεξαν αναδρομικές φράσεις ουσιαστικών από βιβλιογραφία, υφιστάμενα corpora και προσθήκες της δικής τους εφεύρεσης. Πηγές κειμένου περιελάμβαναν το Penn Treebank και το Annotated Gigaword corpus.
Στη συνέχεια, η ομάδα雇ued προ-εξετασμένους φοιτητές να δημιουργήσουν παραδείγματα για τα τρία καθήκοντα που θα αντιμετώπιζαν τα μοντέλα γλώσσας, επικυρώνοντάς τα μετά σε 8.260 έγκυρα περιστατικά.
Τέλος, περισσότεροι προ-εξετασμένοι φοιτητές雇ued, αυτή τη φορά μέσω του Amazon Mechanical Turk, για να αναノτείσουν κάθε περίπτωση ως Ανθρώπινη Νοημοσύνη Καθήκον (HIT), αποφασίζοντας διαμάχες με βάση την πλειοψηφία. Αυτό μείωσε τα περιστατικά σε 4.567 παραδείγματα, τα οποία φιλτράρονταν περαιτέρω σε 3.790 πιο ισορροπημένα περιστατικά.
Οι ερευνητές προσαρμόζουν διάφορα υφιστάμενα σύνολα δεδομένων για να διατυπώσουν τις τρεις ενότητες των υποθέσεών τους, συμπεριλαμβανομένων MNLI, SNLI, MPE και ADEPT, εκπαιδεύοντας όλα τα μοντέλα SOTA από μόνοι τους, με την εξαίρεση του μοντέλου HuggingFace, όπου χρησιμοποιήθηκε ένα checkpoint.
Αποτελέσματα
Οι ερευνητές βρήκαν ότι όλα τα μοντέλα «δυσκολεύονται» στα καθήκοντα RNPC, σε σύγκριση με ένα αξιόπιστο 90%+ βαθμό ακρίβειας για τους ανθρώπους, με τα μοντέλα SOTA να επιτύγχαναν «τυχαία» επίπεδα (δηλ. χωρίς καμία απόδειξη εγγενών ικανοτήτων έναντι τυχαίου τύχης στην απάντηση).

Αποτελέσματα από τους ερευνητές. Εδώ τα μοντέλα γλώσσας ελέγχονται έναντι της ακρίβειάς τους σε ένα υφιστάμενο βENCHMARK, με την κεντρική γραμμή που αντιπροσωπεύει την ανθρώπινη απόδοση σε αυτά τα καθήκοντα.
Δευτερεύουσες γραμμές έρευνας δείχνουν ότι αυτές οι ελλείψεις μπορούν να αποκατασταθούν στην φάση εκπαίδευσης ή επιμελήσεως ενός μοντέλου NLP με την ειδική ένταξη γνώσεων αναδρομικών φράσεων ουσιαστικών. Μόλις αυτή η συμπληρωματική εκπαίδευση πραγματοποιήθηκε, τα μοντέλα απέκτησαν ‘ισχυρή απόδοση zero-shot σε εξωτερικά καθήκοντα Harm Detection [καθηκόντων]’.
Οι ερευνητές υποσχέθηκαν να δημοσιεύσουν τον κώδικα για αυτήν την εργασία στο https://github.com/veronica320/Recursive-NPs.
Αρχικά δημοσιεύθηκε στις 16 Δεκεμβρίου 2021 – 17 Δεκεμβρίου 2021, 6:55 π.μ. GMT+2: Διορθώθηκε κατεστραμμένος σύνδεσμος.
* GPT-3 Ada, το οποίο είναι το ταχύτερο αλλά όχι το καλύτερο της σειράς. Ωστόσο, το μεγαλύτερο «showcase» Davinci μοντέλο δεν είναι διαθέσιμο για την επιμέλεια που αποτελεί το δεύτερο στάδιο των πειραμάτων των ερευνητών.
† Η μετατροπή μου των εσωτερικών αναφορών σε υπερσύνδεσμους.










