Τεχνητή νοημοσύνη

Εξαγωγή Δεδομένων Εκπαίδευσης από Λειτουργικά Μοντέλα Stable Diffusion

Published October 7, 2024

Updated April 3, 2026

Martin Anderson

Examples of training images (below), extracted from a trained model (above). Source: https://arxiv.org/pdf/2410.03039

Νέα έρευνα από τις ΗΠΑ παρουσιάζει μια μέθοδο για την εξαγωγή σημαντικών τμημάτων δεδομένων εκπαίδευσης από μοντέλα που έχουν υποβληθεί σε επιμελημένη εκπαίδευση. Αυτό θα μπορούσε να παρέχει νομικά στοιχεία σε περιπτώσεις όπου ο στυλ ενός καλλιτέχνη έχει αντιγραφεί ή όπου έχουν χρησιμοποιηθεί πνευματικά δικαιώματα εικόνων για την εκπαίδευση γενετικών μοντέλων δημοσίων προσωπικοτήτων, χαρακτήρων με δικαίωμα πνευματικής ιδιοκτησίας ή άλλου περιεχομένου.

Από το νέο έγγραφο: οι αρχικές εικόνες εκπαίδευσης εμφανίζονται στη σειρά πάνω, και οι εξαγόμενοι εικόνες απεικονίζονται στη σειρά κάτω. Πηγή: https://arxiv.org/pdf/2410.03039

Τέτοια μοντέλα είναι ευρέως διαθέσιμα και δωρεάν στο διαδίκτυο, κυρίως μέσω των τεράστιων αρχείων που έχουν συνεισφέρει οι χρήστες στο civit.ai, και σε μικρότερο βαθμό, στην πλατφόρμα αποθήκευσης Hugging Face.

Το νέο μοντέλο που αναπτύχθηκε από τους ερευνητές ονομάζεται FineXtract, και οι συγγραφείς υποστηρίζουν ότι επιτυγχάνει τα καλύτερα αποτελέσματα σε αυτήν την εργασία.

Το έγγραφο παρατηρεί:

‘[Το πλαίσιο μας] αντιμετωπίζει αποτελεσματικά την πρόκληση της εξαγωγής δεδομένων επιμελημένης εκπαίδευσης από δημόσια διαθέσιμα σημεία ελέγχου DM. Με την αξιοποίηση της μετάβασης από τις προ-εκπαιδευμένες κατανομές DM στις κατανομές δεδομένων επιμελημένης εκπαίδευσης, ο FineXtract οδηγεί με ακρίβεια τη διαδικασία γεννήσεων προς τις περιοχές υψηλής πιθανότητας της κατανομής δεδομένων επιμελημένης εκπαίδευσης, επιτρέποντας την επιτυχή εξαγωγή δεδομένων.’

Δεξιά, η αρχική εικόνα που χρησιμοποιήθηκε στην εκπαίδευση. Δεύτερη από δεξιά, η εικόνα που εξήχθη μέσω του FineXtract. Οι άλλες στήλες αντιπροσωπεύουν προηγούμενες μεθόδους. Παρακαλώ αναφερθείτε στο έγγραφο πηγής για καλύτερη ανάλυση.

Γιατί έχει σημασία

Τα πρωταρχικά εκπαιδευμένα μοντέλα για συστήματα γεννήσεων εικόνων από κείμενο όπως το Stable Diffusion και το Flux μπορούν να κατεβαστούν και να υποβληθούν σε επιμελημένη εκπαίδευση από τους τελικούς χρήστες, χρησιμοποιώντας τεχνικές όπως η εφαρμογή DreamBooth του 2022.

Εύκολο ακόμη, ο χρήστης μπορεί να δημιουργήσει ένα πολύ μικρότερο LoRA μοντέλο που είναι σχεδόν τόσο αποτελεσματικό όσο ένα πλήρως επιμελημένο μοντέλο.

Ένα παράδειγμα εκπαιδευμένου LORA, που προσφέρεται για δωρεάν λήψη στην πολύ δημοφιλή ιστοσελίδα Civitai. Τέτοιο μοντέλο μπορεί να δημιουργηθεί σε οποιοδήποτε χρονικό διάστημα από λίγα λεπτά έως λίγες ώρες, από ενθουσιώδεις που χρησιμοποιούν τοπικά εγκατεστημένο λογισμικό ανοιχτού κώδικα – και online, μέσω κάποιων πιο επιτρεπτικών API-κίνητων συστημάτων εκπαίδευσης. Πηγή: civitai.com

Από το 2022, ήταν εύκολο να δημιουργηθούν σημεία ελέγχου και LoRAs που είναι ειδικά για ταυτότητα, παρέχοντας μόνο một μικρό (μέσο 5-50) αριθμό εικόνων με λεζάντες, και εκπαιδεύοντας το σημείο ελέγχου (ή LoRA) τοπικά, σε ένα πλαίσιο ανοιχτού κώδικα όπως το Kohya ss, ή χρησιμοποιώντας online υπηρεσίες.

Αυτή η εύκολη μέθοδος για deepfaking έχει αποκτήσει δυσφήμηση στα μέσα ενημέρωσης τα τελευταία χρόνια. Πολλοί καλλιτέχνες έχουν επίσης δει το έργο τους να ενσωματώνεται σε γενετικά μοντέλα που αναπαράγουν το στυλ τους. Η διαμάχη γύρω από αυτά τα ζητήματα έχει συσσωρευθεί τα τελευταία 18 μήνες.

Η ευκολία με την οποία οι χρήστες μπορούν να δημιουργήσουν συστήματα AI που αναπαράγουν το έργο πραγματικών καλλιτεχνών έχει προκαλέσει θόρυβο και ποικίλες εκστρατείες τα τελευταία δύο χρόνια. Πηγή: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

Είναι δύσκολο να αποδειχθεί ποίες εικόνες χρησιμοποιήθηκαν σε ένα σημείο ελέγχου επιμελημένης εκπαίδευσης ή σε ένα LoRA,既然 η διαδικασία γενίκευσης ‘αφαιρεί’ την ταυτότητα από τα μικρά συνόλα δεδομένων εκπαίδευσης, και δεν είναι πιθανό να αναπαράγει παραδείγματα από τα δεδομένα εκπαίδευσης (εκτός από την περίπτωση υπερ-προσαρμογής, όπου μπορεί να θεωρηθεί ότι η εκπαίδευση απέτυχε).

Αυτή είναι η θέση όπου ο FineXtract μπαίνει στη σκηνή. Συγκρίνοντας την κατάσταση του ‘πρότυπου’ μοντέλου διάχυσης που ο χρήστης κατέβηκε με το μοντέλο που δημιουργήθηκε αργότερα μέσω επιμελημένης εκπαίδευσης ή μέσω LoRA, οι ερευνητές έχουν能够 να δημιουργήσουν πολύ ακριβείς ανακατασκευές δεδομένων εκπαίδευσης.

Αν και ο FineXtract έχει能够 να αναπαράγει μόνο το 20% των δεδομένων από μια επιμελημένη εκπαίδευση*, αυτό είναι περισσότερο από ό,τι θα χρειαζόταν συνήθως για να παρέχει στοιχεία ότι ο χρήστης είχε χρησιμοποιήσει πνευματικά δικαιώματα ή άλλου είδους προστατευμένο ή απαγορευμένο υλικό στην παραγωγή ενός γενετικού μοντέλου. Σε meisten των παραδειγμάτων, η εξαγώμενη εικόνα είναι εξαιρετικά κοντά στο γνωστό υλικό πηγής.

Καθώς οι λεζάντες χρειάζονται για την εξαγωγή των εικόνων πηγής, αυτό δεν είναι ένα σημαντικό εμπόδιο για δύο λόγους: α) ο ανεβάζων συνήθως θέλει να διευκολύνει τη χρήση του μοντέλου μεταξύ μιας κοινότητας και θα παρέχει συνήθως παραδείγματα λεζάντων· και β) δεν είναι τόσο δύσκολο, οι ερευνητές βρήκαν, να εξαγάγουν τα κρίσιμα όροι τυφλά, από το επιμελημένο μοντέλο:

Οι απαραίτητοι λέξεις-κλειδιά μπορούν συνήθως να εξαχθούν τυφλά από το επιμελημένο μοντέλο χρησιμοποιώντας μια επίθεση L2-PGD για 1000 επαναλήψεις, από μια τυχαία λεζάντα.

Οι χρήστες συχνά αποφεύγουν να κάνουν τα συνόλα δεδομένων εκπαίδευσης διαθέσιμα μαζί με το ‘μαύρο κουτί’-στυλ εκπαιδευμένο μοντέλο. Για την έρευνα, οι συγγραφείς συνεργάστηκαν με ενθουσιώδεις που είχαν παρέχει συνόλα δεδομένων.

Το νέο έγγραφο έχει τον τίτλο Αποκαλύπτοντας το Αόρατο: Οδηγώντας Προσωπικά Μοντέλα Διάχυσης για την Εκθέτηση Δεδομένων Εκπαίδευσης, και προέρχεται από τρεις ερευνητές σε πανεπιστήμια Carnegie Mellon και Purdue.

Μέθοδος

Ο ‘επιτιθέμενος’ (σε αυτήν την περίπτωση, το σύστημα FineXtract) συγκρίνει τις εκτιμώμενες κατανομές δεδομένων σε όλα τα πρωτότυπα και επιμελημένα μοντέλα, σε μια διαδικασία που οι συγγραφείς ονομάζουν ‘οδηγία μοντέλου’.

Μέσω της ‘οδηγίας μοντέλου’, που αναπτύχθηκε από τους ερευνητές του νέου εγγράφου, οι ιδιότητες της επιμελημένης εκπαίδευσης μπορούν να χαρτογραφηθούν, επιτρέποντας την εξαγωγή των δεδομένων εκπαίδευσης.

Οι συγγραφείς εξηγούν:

‘Κατά τη διαδικασία επιμελημένης εκπαίδευσης, τα [μοντέλα διάχυσης] προοδευτικά μετακινούν την εκμαθημένη κατανομή τους από την προ-εκπαιδευμένη κατανομή των DMs προς την κατανομή δεδομένων επιμελημένης εκπαίδευσης.

‘Έτσι, παραμετρικά προσεγγίζουμε [την] εκμαθημένη κατανομή του επιμελημένου [μοντέλου διάχυσης].’

Με αυτόν τον τρόπο, το άθροισμα της διαφοράς μεταξύ του κεντρικού και του επιμελημένου μοντέλου παρέχει τη διαδικασία οδηγίας.

Οι συγγραφείς σχολιάζουν περαιτέρω:

‘Με την οδηγία μοντέλου, μπορούμε να οδηγήσουμε αποτελεσματικά μια “ψευδο-“[αποσβεντήρα], η οποία μπορεί να χρησιμοποιηθεί για να οδηγήσει τη διαδικασία δειγματοληψίας προς την περιοχή υψηλής πιθανότητας εντός της κατανομής δεδομένων επιμελημένης εκπαίδευσης, επιτρέποντας την επιτυχή εξαγωγή δεδομένων.’

Η οδηγία βασίζεται εν μέρει σε μια διαδικασία θορύβου που αλλάζει με τον χρόνο, παρόμοια με την εξώθηση Εξάλειψη Εννοιών από Μοντέλα Διάχυσης του 2023.

Η πρόβλεψη αποσβέντηρα που λαμβάνεται επίσης παρέχει μια πιθανή Οδηγία Ταξινόμησης-Ελεύθερη (CFG) κλίμακα. Αυτό είναι σημαντικό, поскольку η CFG επηρεάζει σημαντικά την ποιότητα εικόνας και την πιστότητα στην κείμενο-πρόσκληση του χρήστη.

Για να βελτιώσει την ακρίβεια των εξαγόμενων εικόνων, ο FineXtract βασίζεται στη διάσημη συνεργασία Εξαγωγή Δεδομένων Εκπαίδευσης από Μοντέλα Διάχυσης του 2023. Η μέθοδος που χρησιμοποιείται είναι να υπολογίσει τη συσχέτιση κάθε ζευγαριού γενετικών εικόνων, με βάση ένα όριο που ορίζεται από το Αυτο-Επιβλεπόμενο Περιγραφέα (SSCD) σκορ.

Με αυτόν τον τρόπο, το αλγόριθμο συστάδευσης βοηθά τον FineXtract να αναγνωρίσει το υποσύνολο των εξαγόμενων εικόνων που συμφωνούν με τα δεδομένα εκπαίδευσης.

Σε αυτήν την περίπτωση, οι ερευνητές συνεργάστηκαν με χρήστες που είχαν κάνει τα δεδομένα διαθέσιμα. Κάποιος θα μπορούσε να πει ότι, απουσία τέτοιων δεδομένων, θα ήταν αδύνατο να αποδειχθεί ότι οποιαδήποτε συγκεκριμένη γενετική εικόνα χρησιμοποιήθηκε στην εκπαίδευση του πρωτότυπου. Ωστόσο, είναι τώρα σχετικά εύκολο να αντιστοιχίσετε ανεβαθμισμένες εικόνες είτε με ζωντανές εικόνες στο διαδίκτυο είτε με εικόνες που είναι επίσης σε γνωστά και δημοσιευμένα συνόλα δεδομένων, με βάση μόνο το περιεχόμενο εικόνας.

Δεδομένα και Τεστ

Για να δοκιμάσει τον FineXtract, οι συγγραφείς διεξήγαγαν πειράματα σε περιπτώσεις με λίγες λήψεις επιμελημένης εκπαίδευσης σε δύο από τις πιο συχνές περιπτώσεις επιμελημένης εκπαίδευσης, εντός του πλαισίου του έργου: καλλιτεχνικοί στυλ, και γενετική με βάση αντικείμενο (η τελευταία αποτελείται αποτελεσματικά από πρόσωπα με βάση το πρόσωπο).

Εξέλεξαν τυχαία 20 καλλιτέχνες (καθένας με 10 εικόνες) από το WikiArt συνόλο δεδομένων, και 30 θέματα (καθένα με 5-6 εικόνες) από το DreamBooth συνόλο δεδομένων, για να αντιμετωπίσουν αυτές τις αντίστοιχες περιπτώσεις.

Το DreamBooth και το LoRA ήταν οι μεθόδους επιμελημένης εκπαίδευσης που στοχεύθηκαν, και το Stable Diffusion V1/.4 χρησιμοποιήθηκε για τα τεστ.

Εάν ο αλγόριθμος συστάδευσης επέστρεψε keine αποτελέσματα μετά από τριάντα δευτερόλεπτα, το όριο τροποποιήθηκε μέχρι να επιστραφούν εικόνες.

Οι δύο μετρήσεις που χρησιμοποιήθηκαν για τις γενετικές εικόνες ήταν η Μέση Ομοιότητα (AS) υπό το SSCD, και η Μέση Πιθανότητα Εξαγωγής (A-ESR) – ένα μέτρο που είναι γενικά σύμφωνο με προηγούμενες εργασίες, όπου ένα σκορ 0,7 αντιπροσωπεύει το ελάχιστο για να δηλώσει μια πλήρη εξαγωγή δεδομένων εκπαίδευσης.

Καθώς οι προηγούμενες προσεγγίσεις έχουν χρησιμοποιήσει είτε την άμεση γενετική εικόνας από κείμενο είτε την CFG, οι ερευνητές σύγκριναν τον FineXtract με αυτές τις δύο μεθόδους.

Αποτελέσματα για τις συγκρίσεις του FineXtract με τις δύο πιο δημοφιλείς προηγούμενες μεθόδους.

Οι συγγραφείς σχολιάζουν:

‘Τα αποτελέσματα δείχνουν μια σημαντική υπεροχή του FineXtract έναντι των προηγούμενων μεθόδων, με μια βελτίωση περίπου 0,02 έως 0,05 στην AS και một διπλάσια A-ESR στις περισσότερες περιπτώσεις.’

Για να δοκιμάσει την ικανότητα της μεθόδου να γενικεύσει σε νέα δεδομένα, οι ερευνητές διεξήγαγαν μια weitere δοκιμή, χρησιμοποιώντας το Stable Diffusion (V1.4), το Stable Diffusion XL, και το AltDiffusion.

Ο FineXtract εφαρμόζεται σε eine σειρά μοντέλων διάχυσης. Για το συνόλο WikiArt, η δοκιμή εστίασε σε τέσσερις κατηγορίες στο WikiArt.

Όπως φαίνεται στα αποτελέσματα που εμφανίζονται παραπάνω, ο FineXtract ήταν能够 να επιτύχει μια βελτίωση έναντι των προηγούμενων μεθόδων και σε αυτήν την ευρύτερη δοκιμή.

Μια ποιοτική σύγκριση των εξαγόμενων αποτελεσμάτων από τον FineXtract και τις προηγούμενες προσεγγίσεις. Παρακαλώ αναφερθείτε στο έγγραφο πηγής για καλύτερη ανάλυση.

Οι συγγραφείς παρατηρούν ότι όταν αυξάνεται ο αριθμός εικόνων που χρησιμοποιούνται στο συνόλο δεδομένων για ένα επιμελημένο μοντέλο, ο αλγόριθμος συστάδευσης χρειάζεται να τρέξει για μεγαλύτερο χρονικό διάστημα για να παραμείνει αποτελεσματικός.

Επιπλέον, παρατηρούν ότι πολλές μεθόδους έχουν αναπτυχθεί τα τελευταία χρόνια για να εμποδίσουν αυτό είδος εξαγωγής, υπό την αιγίδα της προστασίας της ιδιωτικής ζωής. Έτσι, δοκιμάζουν τον FineXtract έναντι δεδομένων που έχουν αυξενεργηθεί με τις μεθόδους Cutout και RandAugment.

Η απόδοση του FineXtract έναντι εικόνων που προστατεύονται από Cutout και RandAugment.

Ενώ οι συγγραφείς παραδέχονται ότι τα δύο συστήματα προστασίας λειτουργούν khá καλά στην αποσβήτηση των πηγών δεδομένων εκπαίδευσης, σημειώνουν ότι αυτό γίνεται με το κόστος μιας πτώσης στην ποιότητα εξόδου τόσο σοβαρής που να την καθιστά ανούσια:

Εικόνες που παράγονται με το Stable Diffusion V1.4, επιμελημένο με αμυντικές μεθόδους – οι οποίες μειώνουν δραματικά την ποιότητα εικόνας. Παρακαλώ αναφερθείτε στο έγγραφο πηγής για καλύτερη ανάλυση.

Το έγγραφο ολοκληρώνεται:

‘Οι πειραματικές μας δοκιμές αποδεικνύουν τη μεθοδολογία μας σε διάφορα συνόλα δεδομένων και πραγματικά σημεία ελέγχου, υπογραμμίζοντας τους κινδύνους διαρροής δεδομένων και παρέχοντας ισχυρά στοιχεία για παραβιάσεις πνευματικών δικαιωμάτων.’

Συμπέρασμα

Το 2024 αποδείχθηκε το έτος που το ενδιαφέρον των εταιρειών για “καθαρά” δεδομένα εκπαίδευσης αυξήθηκε σημαντικά, αντιμετωπίζοντας τη συνεχιζόμενη κάλυψη των μέσων ενημέρωσης για την αντικατάσταση των ανθρώπων από την τεχνητή νοημοσύνη και την προοπτική νομικής προστασίας των γενετικών μοντέλων που οι ίδιες οι εταιρείες είναι τόσο πρόθυμες να εκμεταλλευτούν.

Είναι εύκολο να ισχυριστούν ότι τα δεδομένα εκπαίδευσης είναι καθαρά, αλλά γίνεται επίσης πιο εύκολο για παρόμοιες τεχνολογίες να αποδείξουν ότι δεν είναι – όπως η Runway ML, η Stability.ai και η MidJourney (μεταξύ άλλων) έχουν βρει τις τελευταίες ημέρες.

Εργασίες όπως ο FineXtract είναι ορατά σημάδια του απόλυτου τέλους της εποχής “γουέστερν” της τεχνητής νοημοσύνης, όπου ακόμη και η φαινομενικά αποκρυπτογράφηση ενός εκπαιδευμένου χώρου.latent θα μπορούσε να αναληφθεί.

* Για το σκοπό της ευκολίας, θα υποθέσουμε ‘επιμελημένη εκπαίδευση και LoRA’, όπου απαιτείται.

Πρώτη δημοσίευση Δευτέρα, 7 Οκτωβρίου 2024

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός στον τομέα της σύνθεσης ανθρώπινων εικόνων. Πρώην επικεφαλής περιεχομένου έρευνας στη Metaphysic.ai. Προσωπικός ιστότοπος: martinanderson.ai Επικοινωνία: [email protected] Twitter: @manders_ai