Η γωνία του Anderson

Τα Μεγάλα Μοντέλα Γλώσσας Απομνημονεύουν τα Δεδομένα που Προορίζονται για να τα Ελέγξουν

Published May 16, 2025

Updated May 19, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Εάν εξαρτάστε από την τεχνητή νοημοσύνη για να σας προτείνει τι να δείτε, να διαβάσετε ή να αγοράσετε, νέα έρευνα δείχνει ότι κάποια συστήματα μπορεί να βασίζονται σε αυτά τα αποτελέσματα από μνήμη αντί για δεξιότητα: αντί να μάθουν να κάνουν χρήσιες προτάσεις, τα μοντέλα συχνά ανακαλούν στοιχεία από τα δεδομένα που χρησιμοποιούνται για να τα αξιολογήσουν, οδηγώντας σε υπερτιμημένες επιδόσεις και προτάσεις που μπορεί να είναι ξεπερασμένες ή κακώς-συνδεδεμένες με τον χρήστη.

Στην μηχανική μάθηση, ένα τεστ-διαχωρισμός χρησιμοποιείται για να δει αν ένα εκπαιδευμένο μοντέλο έχει μάθει να λύσει προβλήματα που είναι παρόμοια, αλλά δεν είναι ταυτόσημα με το υλικό στο οποίο εκπαιδεύτηκε.

Έτσι, αν ένα νέο μοντέλο αναγνώρισης φυλών σκύλων εκπαιδευτεί σε ένα σύνολο δεδομένων 100.000 φωτογραφιών σκύλων, θα έχει συνήθως ένα διαχωρισμό 80/20 – 80.000 φωτογραφίες που παρέχονται για την εκπαίδευση του μοντέλου και 20.000 φωτογραφίες που κρατούνται πίσω και χρησιμοποιούνται ως υλικό για τον έλεγχο του ολοκληρωμένου μοντέλου.

Πρόκειται για μια προφανή περίπτωση, αν τα δεδομένα εκπαίδευσης του μοντέλου περιέχουν κατά λάθος το “μυστικό” 20% του διαχωρισμού του ελέγχου, το μοντέλο θα πετύχει αυτούς τους ελέγχους, επειδή ήδη γνωρίζει τις απαντήσεις (έχει ήδη δει το 100% του τομέα δεδομένων). Φυσικά, αυτό δεν αντανακλά με ακρίβεια πώς το μοντέλο θα εκτελεστεί αργότερα, σε νέα “ζωντανά” δεδομένα, σε ένα περιβάλλον παραγωγής.

Σποίλερs Ταινιών

Το πρόβλημα της απάτης της τεχνητής νοημοσύνης στις εξετάσεις της έχει αυξηθεί παράλληλα με το μέγεθος των μοντέλων. Επειδή τα σημερινά συστήματα εκπαιδεύονται σε τεράστια, αδιακρίτως web-σκαμμένα σώματα όπως το Common Crawl, η πιθανότητα τα σύνολα δεδομένων (δηλαδή, το 20% που κρατείται πίσω) να μπει στο μείγμα της εκπαίδευσης δεν είναι πλέον ένα περιστατικό, αλλά η mặc định – ένα σύνδρομο γνωστό ως μολύβδωση δεδομένων και σε αυτό το μέγεθος, η χειροκίνητη επιμέλεια που θα μπορούσε να πιάσει τέτοιους λάθους είναι λογιστικά αδύνατη.

Αυτή η περίπτωση εξετάζεται σε μια νέα εργασία από το Politecnico di Bari της Ιταλίας, όπου οι ερευνητές επικεντρώνονται στον υπερμεγέθη ρόλο ενός単ικού συνόλου δεδομένων συστάσεων ταινιών, MovieLens-1M, το οποίο υποστηρίζουν ότι έχει μερικά απομνημονευθεί από πολλά ηγετικά μοντέλα τεχνητής νοημοσύνης κατά την εκπαίδευση.

Επειδή αυτό το συγκεκριμένο σύνολο δεδομένων χρησιμοποιείται τόσο ευρέως στον έλεγχο των συστημάτων συστάσεων, η παρουσία του στο μνήμη των μοντέλων μπορεί να κάνει αυτούς τους ελέγχους άσκοπους: αυτό που φαίνεται να είναι ευφυΐα μπορεί στην πραγματικότητα να είναι απλή ανάκληση, και αυτό που φαίνεται να είναι μια ενστικτική δεξιότητα συστάσεων μπορεί να είναι απλά μια στατιστική ηχώ που αντανακλά την προηγούμενη έκθεση.

Οι συγγραφείς δηλώνουν:

‘Τα ευρήματά μας δείχνουν ότι τα LLMs κατέχουν εκτεταμένη γνώση του συνόλου δεδομένων MovieLens-1M, που καλύπτει στοιχεία, χαρακτηριστικά χρηστών και ιστορίες αλληλεπιδράσεων.

‘Ιδιαίτερα, μια απλή προτροπή ermögνίζει στο GPT-4o να ανακαλέσει σχεδόν το 80% των εγγραφών MovieID::Title. Κανένα από τα εξεταζόμενα μοντέλα δεν είναι ελεύθερο από αυτήν τη γνώση, υποδεικνύοντας ότι τα δεδομένα του MovieLens-1M είναι πιθανό να περιλαμβάνονται στα σύνολα εκπαίδευσής τους.

‘Παρατηρήσαμε παρόμοιες τάσεις στην ανάκτηση χαρακτηριστικών χρηστών και ιστοριών αλληλεπιδράσεων.’

Η σύντομη νέα εργασία έχει τον τίτλο Απομνημονεύουν τα LLMs τα Σύνολα Δεδομένων Συστάσεων; Μια Προκαταρκτική Μελέτη για το MovieLens-1M και προέρχεται από έξι ερευνητές του Politecnico. Η διαδικασία για την αναπαραγωγή της εργασίας τους έχει γίνει διαθέσιμη στο GitHub.

Μέθοδος

Για να κατανοήσουν εάν τα μοντέλα που εξετάζονται είχαν πραγματικά μάθει ή απλά ανακαλούσαν, οι ερευνητές άρχισαν ορίζοντας τι σημαίνει απομνημόνευση σε αυτό το контекστό και άρχισαν δοκιμάζοντας εάν ένα μοντέλο ήταν ικανό να ανακαλέσει συγκεκριμένα στοιχεία από το σύνολο δεδομένων MovieLens-1M, όταν προτρεπόταν με τον σωστό τρόπο.

Εάν ένα μοντέλο έδειχνε τον κωδικό ενός фильμ και μπορούσε να παράγει τον τίτλο και το είδος, αυτό μετράει ως απομνημόνευση ενός στοιχείου. Εάν μπορούσε να παράγει λεπτομέρειες για einen χρήστη (όπως η ηλικία, η εργασία ή ο κωδικός ταχυδρομείου) από einen κωδικό χρήστη, αυτό μετράει επίσης ως απομνημόνευση χρήστη. Και εάν μπορούσε να αναπαράγει την επόμενη βαθμολογία ενός χρήστη από μια γνωστή σειρά προηγούμενων, αυτό θεωρείται ως απόδειξη ότι το μοντέλο μπορεί να ανακαλεί συγκεκριμένα δεδομένα αλληλεπίδρασης, αντί να μάθει γενικούς κανόνες.

Κάθε eine από αυτές τις μορφές ανάκλησης δοκιμάστηκε με προσεκτικά γραμμένες προτροπές, που σχεδιάστηκαν για να προωθήσουν το μοντέλο χωρίς να του δώσουν νέα πληροφορίες. Όσο πιο ακριβής ήταν η απάντηση, τόσο πιο πιθανό ήταν ότι το μοντέλο είχε ήδη συναντήσει αυτά τα δεδομένα κατά την εκπαίδευση:

Zero-shot prompting για το πρωτόκολλο αξιολόγησης που χρησιμοποιήθηκε στην νέα εργασία. Πηγή: https://arxiv.org/pdf/2505.10212

Δεδομένα και Έλεγχοι

Για να δημιουργηθεί ένα κατάλληλο σύνολο δεδομένων, οι συγγραφείς διεξήγαγαν μια έρευνα για πρόσφατες εργασίες από δύο από τις μεγαλύτερες συνεδρίες του τομέα, ACM RecSys 2024 και ACM SIGIR 2024. Το MovieLens-1M εμφανίστηκε πιο συχνά, αναφερόμενο σε πάνω από ένα στα πέντε υποβληθέντα έγγραφα. Καθώς πρόσφατες μελέτες είχαν φτάσει σε παρόμοια συμπεράσματα, αυτό δεν ήταν ένα απρόσμενο αποτέλεσμα, αλλά μάλλον μια επιβεβαίωση της κυριαρχίας του συνόλου δεδομένων.

Το MovieLens-1M αποτελείται από τρία αρχεία: Movies.dat, που καταγράφει τις ταινίες με κωδικό, τίτλο και είδος. Users.dat, που αντιστοιχίζει τους κωδικούς χρηστών σε βασικά βιογραφικά πεδία. Και Ratings.dat, που καταγράφει ποιος βαθμολόγησε τι και πότε.

Για να δουν εάν αυτά τα δεδομένα είχαν απομνημονευθεί από τα μεγάλα μοντέλα γλώσσας, οι ερευνητές χρησιμοποίησαν τεχνικές προτροπής που εισήχθησαν για πρώτη φορά στο έγγραφο Extracting Training Data from Large Language Models και αργότερα προσαρμόστηκαν στην επόμενη εργασία Bag of Tricks for Training Data Extraction from Language Models.

Η μέθοδος είναι απλή: θέστε μια ερώτηση που αντανακλά το σχήμα του συνόλου δεδομένων και δείτε εάν το μοντέλο απαντά σωστά. Zero-shot, Chain-of-Thought, και few-shot prompting δοκιμάστηκαν, και βρέθηκε ότι η τελευταία μέθοδος, στην οποία το μοντέλο δείχνεται quelques παραδείγματα, ήταν η πιο αποτελεσματική. Ακόμη και αν πιο περίπλοκες προσεγγίσεις θα μπορούσαν να οδηγήσουν σε υψηλότερη ανάκληση, αυτό θεωρήθηκε αρκετό για να αποκαλύψει τι είχε απομνημονευθεί.

Few-shot prompt για να δοκιμάσει εάν ένα μοντέλο μπορεί να αναπαράγει συγκεκριμένες τιμές του MovieLens-1M όταν ερωτηθεί με ελάχιστη контекστο.

Για να μετρήσουν την απομνημόνευση, οι ερευνητές ορίσαν τρεις μορφές ανάκλησης: στοιχείο, χρήστης, και αλληλεπίδραση. Αυτές οι δοκιμές εξέτασαν εάν ένα μοντέλο μπορούσε να ανακαλέσει τον τίτλο μιας ταινίας από τον κωδικό της, να παράγει λεπτομέρειες για einen χρήστη από einen κωδικό χρήστη, ή να προβλέψει την επόμενη βαθμολογία ενός χρήστη με βάση προηγούμενες. Κάθε eine από αυτές τις δοκιμές αξιολογήθηκε με ένα μετρικό που αντανακλούσε το ποσοστό του συνόλου δεδομένων που μπορούσε να ανακαληφθεί μέσω προτροπής.

Τα μοντέλα που δοκιμάστηκαν ήταν GPT-4o. GPT-4o mini. GPT-3.5 turbo. Llama-3.3 70B. Llama-3.2 3B. Llama-3.2 1B. Llama-3.1 405B. Llama-3.1 70B. και Llama-3.1 8B. Όλα αυτά τα μοντέλα εκτελέστηκαν με θερμοκρασία που ορίστηκε σε μηδέν, top_p που ορίστηκε σε ένα, και cả συχνότητα και παρουσία που απενεργοποιήθηκαν. Ένας σταθερός τυχαίος σπόρος εγγύησε συνεπή έξοδο σε όλες τις εκτελέσεις.

Ποσοστό των εγγραφών του MovieLens-1M που ανακλήθηκαν από τα αρχεία movies.dat, users.dat, και ratings.dat, με τα μοντέλα ομαδοποιημένα ανά έκδοση και ταξινομημένα ανά αριθμό παραμέτρων.

Για να εξετάσουν πόσο βαθιά το MovieLens-1M είχε απομνημονευθεί, οι ερευνητές προέτρεψαν κάθε μοντέλο για ακριβείς εγγραφές από τα τρία (πρόσφατα αναφερθέντα) αρχεία του συνόλου δεδομένων: Movies.dat, Users.dat, και Ratings.dat.

Τα αποτελέσματα από τις αρχικές δοκιμές, που εμφανίζονται παραπάνω, αποκαλύπτουν σαφείς διαφορές όχι μόνο μεταξύ των οικογενειών GPT και Llama, αλλά και μεταξύ μεγεθών μοντέλων. Ενώ το GPT-4o και το GPT-3.5 turbo ανακάλυψαν μεγάλες ποσότητες του συνόλου δεδομένων με ευκολία, τα περισσότερα μοντέλα ανοιχτού κώδικα ανακάλεσαν μόνο ένα τμήμα του υλικού, υποδεικνύοντας ανίσου εκθεση σε αυτό το σύνολο δεδομένων κατά την προ-εκπαίδευση.

Αυτά δεν είναι μικρές διαφορές. Σε όλα τα τρία αρχεία, τα ισχυρότερα μοντέλα δεν απλώς ξεπέρασαν τα ασθενέστερα, αλλά ανακάλεσαν ολόκληρες ενότητες του MovieLens-1M.

Στην περίπτωση του GPT-4o, η κάλυψη ήταν αρκετά υψηλή για να υποδηλώσει ότι ένα σημαντικό μέρος του συνόλου δεδομένων είχε απομνημονευθεί直接.

Οι συγγραφείς δηλώνουν:

‘Παρατηρήσαμε παρόμοιες τάσεις στην ανάκτηση χαρακτηριστικών χρηστών και ιστοριών αλληλεπιδράσεων.’

Επόμενο, οι συγγραφείς εξέτασαν την επίδραση της απομνημόνευσης στις εργασίες συστάσεων, προτρέποντας κάθε μοντέλο να ενεργεί ως σύστημα συστάσεων. Για να αξιολογήσουν την απόδοση, τις σύγκριναν με επτά τυποποιημένες μεθόδους: UserKNN. ItemKNN. BPRMF. EASE^R. LightGCN. MostPop. και Random.

Το σύνολο δεδομένων MovieLens-1M χωρίστηκε σε 80/20 για εκπαίδευση και έλεγχο, χρησιμοποιώντας μια Leave-One-Out στρατηγική δειγματοληψίας για να προσομοιώσει πραγματική χρήση. Τα μετρικά που χρησιμοποιήθηκαν ήταν Hit Rate (HR@[n]). και nDCG(@[n]):

Ακρίβεια συστάσεων σε τυποποιημένες βάσεις και μεθόδους LLM. Τα μοντέλα ομαδοποιούνται ανά οικογένεια και ταξινομημένα ανά αριθμό παραμέτρων, με τις έντοнах τιμές να υποδηλώνουν την υψηλότερη βαθμολογία σε κάθε ομάδα.

Εδώ, πολλά μεγάλα μοντέλα γλώσσας ξεπέρασαν τις παραδοσιακές βάσεις σε όλα τα μετρικά, με το GPT-4o να καθιστάθηκε σε μια ευρεία πρωτοπορία σε κάθε στήλη, και ακόμη και τα μεσαία μοντέλα όπως το GPT-3.5 turbo και το Llama-3.1 405B να υπερβαίνουν συνεχώς τις μεθόδους βάσης όπως το BPRMF και το LightGCN.

Μεταξύ των μικρότερων εκδόσεων του Llama, η απόδοση ποικίλλει δραματικά, αλλά το Llama-3.2 3B ξεχωρίζει, με την υψηλότερη HR@1 στην ομάδα του.

Τα αποτελέσματα, όπως υποδηλώνουν οι συγγραφείς, δείχνουν ότι τα απομνημονευμένα δεδομένα μπορούν να μεταφραστούν σε μετρήσιμα πλεονεκτήματα στις εργασίες συστάσεων, ιδιαίτερα για τα ισχυρότερα μοντέλα.

Σε μια πρόσθετη παρατήρηση, οι ερευνητές συνεχίζουν:

‘Αν και η απόδοση συστάσεων φαίνεται εξαιρετική, η σύγκριση του Πίνακα 2 με τον Πίνακα 1 αποκαλύπτει ένα ενδιαφέρον μοτίβο. Σε κάθε ομάδα, το μοντέλο με υψηλότερη απομνημόνευση επίσης παρουσιάζει υψηλότερη απόδοση στη εργασία συστάσεων.

‘Για παράδειγμα, το GPT-4o ξεπερνά το GPT-4o mini, και το Llama-3.1 405B ξεπερνά το Llama-3.1 70B και 8B.

‘Αυτά τα αποτελέσματα υπογραμμίζουν ότι η αξιολόγηση των LLMs σε δεδομένα που έχουν διαρρεύσει στην εκπαίδευσή τους μπορεί να οδηγήσει σε υπεραισιόδοξη απόδοση, οδηγούμενη από την απομνημόνευση αντί για τη γενίκευση.’

Σχετικά με την επίδραση του μεγέθους του μοντέλου σε αυτό το ζήτημα, οι συγγραφείς παρατήρησαν μια σαφή συσχετίση μεταξύ μεγέθους, απομνημόνευσης και απόδοσης συστάσεων, με τα μεγαλύτερα μοντέλα να διατηρούν περισσότερο το σύνολο δεδομένων MovieLens-1M, αλλά και να εκτελούνται ισχυρότερα στις εργασίες ροής.

Το Llama-3.1 405B, για παράδειγμα, έδειξε ένα μέσο ποσοστό απομνημόνευσης 12,9%, ενώ το Llama-3.1 8B διατήρησε μόνο 5,82%. Αυτή η μείωση της ανάκλησης περίπου 55% συνδέθηκε με μια πτώση της nDCG κατά 54,23% και της HR κατά 47,36% σε όλα τα μετρικά.

Το μοτίβο διατηρήθηκε σε όλα τα μοντέλα – όπου η απομνημόνευση μειωνόταν, η φαινομενική απόδοση cũng μειωνόταν:

‘Αυτά τα ευρήματα δείχνουν ότι η αύξηση του μεγέθους του μοντέλου οδηγεί σε μεγαλύτερη απομνημόνευση του συνόλου δεδομένων, με αποτέλεσμα την βελτίωση της απόδοσης.

‘Ως αποτέλεσμα, ενώ τα μεγαλύτερα μοντέλα παρουσιάζουν καλύτερη απόδοση συστάσεων, επίσης ενέχουν κινδύνους σχετικά με τη διαρροή δεδομένων εκπαίδευσης.’

Η τελική δοκιμή εξέτασε εάν η απομνημόνευση αντανακλά την πρόθεση της δημοτικότητας που είναι ενσωματωμένη στο MovieLens-1M. Τα στοιχεία ομαδοποιήθηκαν ανά συχνότητα αλληλεπίδρασης, και το παρακάτω διάγραμμα δείχνει ότι τα μεγαλύτερα μοντέλα ευνοούν συνεχώς τις πιο δημοφιλείς εγγραφές:

Κάλυψη στοιχείων ανά μοντέλο σε τρεις κατηγορίες δημοτικότητας: τα 20% πιο δημοφιλή, τα 20% μεσαίας δημοτικότητας, και τα 20% λιγότερο αλληλεπιδραστικά στοιχεία.

Το GPT-4o ανακάλεσε το 89,06% των κορυφαίων στοιχείων, αλλά μόνο το 63,97% των λιγότερο δημοφιλών. Το GPT-4o mini και τα μικρότερα μοντέλα Llama έδειξαν πολύ χαμηλότερη κάλυψη σε όλες τις κατηγορίες. Οι ερευνητές δηλώνουν ότι αυτή η τάση υποδηλώνει ότι η απομνημόνευση όχι μόνο αυξάνεται με το μέγεθος του μοντέλου, αλλά επίσης ενισχύει τις προϋπάρχουσες ανισότητες στα δεδομένα εκπαίδευσης.

Συνεχίζουν:

‘Τα ευρήματά μας αποκαλύπτουν μια έντονη πρόθεση της δημοτικότητας στα LLMs, με τα 20% πιο δημοφιλή στοιχεία να είναι σημαντικά πιο εύκολα να ανακαληφθούν από τα 20% λιγότερο αλληλεπιδραστικά.

‘Αυτή η τάση υπογραμμίζει την επίδραση της κατανομής των δεδομένων εκπαίδευσης, όπου τα δημοφιλή στοιχεία είναι υπερεκπροσωπημένα, οδηγώντας στην αναλογική απομνημόνευσή τους από τα μοντέλα.’

Συμπέρασμα

Το δίλημμα δεν είναι πλέον καινούριο: καθώς τα σύνολα εκπαίδευσης μεγαλώνουν, η προοπτική της επιμέλειας τους μειώνεται αναλογικά. Το MovieLens-1M, ίσως μαζί με άλλα, μπαίνει σε αυτά τα τεράστια σώματα χωρίς επίβλεψη, ανώνυμο μέσα στο τεράστιο όγκο δεδομένων.

Το πρόβλημα επαναλαμβάνεται σε κάθε κλίμακα και αντιστέκεται στην αυτοματοποίηση. Κάθε λύση απαιτεί όχι μόνο προσπάθεια, αλλά και ανθρώπινη κρίση – την αργή, αμφίβολη που δεν μπορούν να προσφέρουν οι μηχανές. Σε αυτό το σημείο, η νέα εργασία δεν προσφέρει keinen τρόπο προς τα εμπρός.

* Ένα μετρικό κάλυψης σε αυτό το контекστό είναι ένα ποσοστό που δείχνει πόσο από το αρχικό σύνολο δεδομένων ένα μοντέλο γλώσσας είναι ικανό να αναπαράγει όταν του ζητηθεί η σωστή ερώτηση. Εάν ένα μοντέλο προτρέπεται με τον κωδικό μιας ταινίας και απαντά με τον σωστό τίτλο και είδος, αυτό μετράει ως μια επιτυχημένη ανάκληση. Ο συνολικός αριθμός των επιτυχημένων ανακλήσεων διαιρείται στη συνέχεια με τον συνολικό αριθμό εγγραφών στο σύνολο δεδομένων για να παράγει ένα μετρικό κάλυψης. Για παράδειγμα, εάν ένα μοντέλο ανακαλεί σωστά πληροφορίες για 800 από 1.000 στοιχεία, η κάλυψή του θα είναι 80 τοις εκατό.

Πρώτη δημοσίευση Παρασκευή, 16 Μαΐου 2025

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]

Unite.AI

Τα Μεγάλα Μοντέλα Γλώσσας Απομνημονεύουν τα Δεδομένα που Προορίζονται για να τα Ελέγξουν

Σποίλερs Ταινιών

Μέθοδος

Δεδομένα και Έλεγχοι

Συμπέρασμα

You may like