Connect with us

Πραγματικές Ταυτότητες Μπορούν Να Ανακτηθούν Από Συνθετικά Δεδομένα

Τεχνητή νοημοσύνη

Πραγματικές Ταυτότητες Μπορούν Να Ανακτηθούν Από Συνθετικά Δεδομένα

mm
Sample comparison images from the paper 'Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities', including original images (top), and inferred images (bottom).

Εάν το 2022 σημάδεψε τη στιγμή που η διαταρακτική δυνατότητα της γεννητικής τεχνητής νοημοσύνης κατέλαβε για πρώτη φορά την ευρεία προσοχή του κοινού, το 2024 ήταν το έτος κατά το οποίο οι ερωτήσεις σχετικά με τη νομιμότητα των υποκείμενων δεδομένων της έγιναν κεντρικό ζήτημα για τις επιχειρήσεις που επιθυμούν να εκμεταλλευτούν τη δύναμή της.

Η докτρίνη της δίκαιης χρήσης των ΗΠΑ, μαζί με την 암πλυτή ακαδημαϊκή άδεια που είχε επιτρέψει για καιρό στους ακαδημαϊκούς και εμπορικούς ερευνητικούς τομείς να εξερευνήσουν τη γεννητική τεχνητή νοημοσύνη, έγιναν ολοένα και πιο αβέβαιες καθώς εμφανίστηκαν증είς αποδείξεις plagio. Στη συνέχεια, οι ΗΠΑ, για το παρόν, απαγόρευσαν την πνευματική ιδιοκτησία του περιεχομένου που παράγεται από τη τεχνητή νοημοσύνη.

Αυτά τα ζητήματα είναι μακράν από το να επιλυθούν και μακράν από το να επιλυθούν σύντομα. Το 2023, λόγω της αυξανόμενης μέσων ενημέρωσης και δημόσιας ανησυχίας σχετικά με το νομικό καθεστώς της έξοδου της τεχνητής νοημοσύνης, το Γραφείο Πνευματικής Ιδιοκτησίας των ΗΠΑ ξεκίνησε μια διερεύνηση που θα διαρκέσει χρόνια σε αυτό το аспект της γεννητικής τεχνητής νοημοσύνης, δημοσιεύοντας το πρώτο τμήμα (σχετικά με ψηφιακές αναπαραγωγές) τον Ιούλιο του 2024.

Εν τω μεταξύ, τα επιχειρηματικά συμφέροντα παραμένουν απογοητευμένα από την πιθανότητα ότι τα ακριβά μοντέλα που επιθυμούν να εκμεταλλευτούν θα τους εκθέσουν σε νομικές επιπτώσεις όταν τελικά θα υπάρξει οριστική νομοθεσία και ορισμοί.

Η ακριβή βραχυπρόθεσμη λύση ήταν να νομιμοποιήσουν τα γεννητικά μοντέλα με την εκπαίδευση τους σε δεδομένα που οι εταιρείες έχουν το δικαίωμα να εκμεταλλευτούν. Η αρχιτεκτονική Firefly του Adobe για κείμενο-εικόνα (και τώρα κείμενο-βίντεο) τροφοδοτείται κυρίως από την αγορά του dataset εικόνων Fotolia το 2014, συμπληρωμένη από τη χρήση δεδομένων που έχουν λήξει η πνευματική ιδιοκτησία από το δημόσιο τομέα*. Ταυτόχρονα, οι υφιστάμενοι προμηθευτές stock φωτογραφιών όπως η Getty και η Shutterstock έχουν κεφαλαιοποιήσει την νέα αξία των αδειοδοτημένων δεδομένων τους, με αυξανόμενο αριθμό συμφωνιών για την αδειοδότηση περιεχομένου ή την ανάπτυξη των δικών τους συμμόρφωσης GenAI συστημάτων.

Συνθετικά Λύσεις

Καθώς η αφαίρεση δεδομένων που προστατεύονται από πνευματικά δικαιώματα από τον εκπαιδευμένο χώρο ενός μοντέλου τεχνητής νοημοσύνης είναι γεμάτο προβλήματα, λάθη σε αυτήν την περιοχή θα μπορούσαν να είναι πολύ δαπανηρά για τις εταιρείες που πειραματίζονται με λύσεις που χρησιμοποιούν μηχανική μάθηση.

Μια εναλλακτική και πολύ φθηνότερη λύση για συστήματα υπολογιστικής όρασης (και επίσης για τα Μεγάλα Γλωσσικά Μοντέλα, ή LLMs), είναι η χρήση συνθετικών δεδομένων, όπου το σύνολο δεδομένων αποτελείται από τυχαία παραγόμενα παραδείγματα του στόχου τομέα (όπως πρόσωπα, γάτες, εκκλησίες, ή ακόμη και ένα πιο γενικευμένο σύνολο δεδομένων).

Ιστοσελίδες όπως το thispersondoesnotexist.com είχαν ήδη δημοσιοποιήσει την ιδέα ότι αυθεντικές εικόνες “μη-πραγματικών” ανθρώπων θα μπορούσαν να συνθετούν (σε αυτήν την περίπτωση, μέσω των Γεννητικών Αντιπαλών Δικτύων, ή GANs) χωρίς να έχουν καμία σχέση με ανθρώπους που υπάρχουν πραγματικά στον κόσμο.

Επομένως, αν εκπαιδεύσετε ένα σύστημα αναγνώρισης προσώπου ή ένα γεννητικό σύστημα σε τέτοιες αφηρημένες και μη-πραγματικές παραδείγματα, μπορείτε θεωρητικά να αποκτήσετε ένα φωτορεαλιστικό πρότυπο παραγωγικότητας για ένα μοντέλο τεχνητής νοημοσύνης χωρίς να χρειάζεται να σκέφτεστε αν τα δεδομένα είναι νομικά χρησιμοποιήσιμα.

Ισορροπία

Το πρόβλημα είναι ότι τα συστήματα που παράγουν συνθετικά δεδομένα εκπαιδεύονται ο ίδιος σε πραγματικά δεδομένα. Αν ίχνη από αυτά τα δεδομένα διαρρεύσουν στα συνθετικά δεδομένα, αυτό потенτικά παρέχει αποδείξεις ότι περιορισμένα ή αλλιώς μη εξουσιοδοτημένα υλικά έχουν εκμεταλλευτεί για κέρδος.

Για να αποφευχθεί αυτό, και για να παραχθούν πραγματικά “τυχαία” εικόνες, τέτοια μοντέλα χρειάζεται να διασφαλίσουν ότι είναι καλά-γενικευμένα. Η γενίκευση είναι το μέτρο της ικανότητας ενός εκπαιδευμένου μοντέλου τεχνητής νοημοσύνης να κατανοήσει εγγενώς υψηλού επιπέδου έννοιες (όπως “πρόσωπο”, “άνθρωπος”, ή “γυναίκα”) χωρίς να αναπαράγει τα πραγματικά δεδομένα εκπαίδευσης.

Δυστυχώς, μπορεί να είναι δύσκολο για τα εκπαιδευμένα συστήματα να παράγουν (ή να αναγνωρίσουν) λεπτομερείς λεπτομέρειες, trừśli εκπαιδευτούν khá εκτενώς σε ένα σύνολο δεδομένων. Αυτό εκθέτει το σύστημα σε κίνδυνο μνημόνευσης: μια τάση να αναπαράγει, σε κάποιο βαθμό, παραδείγματα των πραγματικών δεδομένων εκπαίδευσης.

Αυτό μπορεί να μειωθεί με τη ρύθμιση ενός πιο χαλαρό ρυθμού μάθησης, ή με τη λήξη της εκπαίδευσης σε ένα στάδιο όπου οι βασικές έννοιες είναι ακόμη ευέλικτες και δεν συνδέονται με κανένα συγκεκριμένο δεδομένο σημείο (όπως μια συγκεκριμένη εικόνα ενός προσώπου, στην περίπτωση ενός συνόλου δεδομένων προσώπου).

Αποκάλυψη Προσώπου

Αυτό μας οδηγεί σε ένα ενδιαφέρον νέο έγγραφο από την Ελβετία, το οποίο ισχυρίζεται ότι είναι το πρώτο που αποδεικνύει ότι οι αρχικές, πραγματικές εικόνες που δίνουν τη δύναμη στα συνθετικά δεδομένα μπορούν να ανακτηθούν από τις γεννημένες εικόνες που θα πρέπει, θεωρητικά, να είναι εντελώς τυχαίες:

Παραδείγματα εικόνων προσώπου που διαρρεύσουν από τα δεδομένα εκπαίδευσης. Στην πρώτη σειρά, βλέπουμε τις αρχικές (πραγματικές) εικόνες. Στη δεύτερη σειρά, βλέπουμε εικόνες που παράγονται τυχαία, οι οποίες συμφωνούν σημαντικά με τις πραγματικές εικόνες.

Παραδείγματα εικόνων προσώπου που διαρρεύσουν από τα δεδομένα εκπαίδευσης. Στην πρώτη σειρά, βλέπουμε τις αρχικές (πραγματικές) εικόνες. Στη δεύτερη σειρά, βλέπουμε εικόνες που παράγονται τυχαία, οι οποίες συμφωνούν σημαντικά με τις πραγματικές εικόνες. Source: https://arxiv.org/pdf/2410.24015

Τα αποτελέσματα, όπως ισχυρίζονται οι συγγραφείς, δείχνουν ότι τα “συνθετικά” γεννήτορες έχουν πραγματικά μνημονεύσει πολλά από τα δεδομένα εκπαίδευσης, στην αναζήτησή τους για μεγαλύτερη λεπτομέρεια. Επίσης, δείχνουν ότι τα συστήματα που βασίζονται σε συνθετικά δεδομένα για να προστατεύσουν τους παραγωγούς τεχνητής νοημοσύνης από νομικές συνέπειες θα μπορούσαν να είναι πολύ αξιόπιστα σε αυτήν την περίπτωση.

Οι ερευνητές διεξήγαγαν μια εκτεταμένη μελέτη σε έξι συνθετικά σύνολα δεδομένων, αποδεικνύοντας ότι σε όλες τις περιπτώσεις, τα αρχικά (πιθανώς πνευματικά δικαιώματα ή προστατευμένα) δεδομένα μπορούν να ανακτηθούν. Σχολιάζουν:

‘Οι πειραματικές μας μελέτες αποδεικνύουν ότι τα συνθετικά σύνολα δεδομένων προσώπου περιέχουν δείγματα που είναι πολύ κοντά στα δείγματα των δεδομένων εκπαίδευσης των μοντέλων γεννήτορων. Σε ορισμένες περιπτώσεις, τα συνθετικά δείγματα περιέχουν μικρές αλλαγές στην αρχική εικόνα, ωστόσο, μπορούμε επίσης να παρατηρήσουμε σε ορισμένες περιπτώσεις ότι το γεννημένο δείγμα περιέχει περισσότερη ποικιλία (π.χ. διαφορετική στάση, φωτισμός, κ.λπ.), ενώ η ταυτότητα διατηρείται.

‘Αυτό υποδηλώνει ότι τα μοντέλα γεννήτορων μαθαίνουν και μνημονεύουν τις πληροφορίες σχετικά με την ταυτότητα από τα δεδομένα εκπαίδευσης και μπορεί να παράγουν παρόμοιες ταυτότητες. Αυτό δημιουργεί κρίσιμες ανησυχίες σχετικά με την εφαρμογή συνθετικών δεδομένων σε εργασίες που είναι ευαίσθητες στη προστασία της ιδιωτικής ζωής, όπως η βιομετρία και η αναγνώριση προσώπου.’

Το έγγραφο ονομάζεται Αποκάλυψη Συνθετικών Προσώπων: Πώς τα Συνθετικά Σύνολα Δεδομένων Μπορούν Να Αποκαλύψουν Πραγματικές Ταυτότητες, και προέρχεται από δύο ερευνητές από το Ινστιτούτο Idiap στο Martigny, το École Polytechnique Fédérale de Lausanne (EPFL), και το Université de Lausanne (UNIL) στο Lausanne.

Μέθοδος, Δεδομένα και Αποτελέσματα

Οι μνημονευμένες εικόνες προσώπου στην μελέτη αποκαλύφθηκαν με Επίθεση Μέλους. Αν και η έννοια φαίνεται περίπλοκη, είναι αρκετά αυτοεξηγητική: η εύρεση μελών, σε αυτήν την περίπτωση, αναφέρεται στη διαδικασία ερώτησης του συστήματος μέχρι να αποκαλύψει δεδομένα που είτε ταιριάζουν με τα δεδομένα που ψάχνετε, είτε μοιάζουν σημαντικά με αυτά.

Παραδείγματα επιπλέον δεδομένων που ελήφθησαν από τη μελέτη. Σε αυτήν την περίπτωση, οι πηγές συνθετικών εικόνων είναι από το σύνολο δεδομένων DCFace.

Παραδείγματα επιπλέον δεδομένων που ελήφθησαν από τη μελέτη. Σε αυτήν την περίπτωση, οι πηγές συνθετικών εικόνων είναι από το σύνολο δεδομένων DCFace.

Οι ερευνητές μελέτησαν έξι συνθετικά σύνολα δεδομένων για τα οποία η (πραγματική) πηγή του συνόλου δεδομένων ήταν γνωστή. Καθώς και τα πραγματικά και τα ψευδή σύνολα δεδομένων που αναφέρονται περιέχουν πολύ υψηλό όγκο εικόνων, αυτό είναι αποτελεσματικά σαν να ψάχνετε για ένα βελόνι σε ένα σωρό.

Επομένως, οι συγγραφείς χρησιμοποίησαν ένα μοντέλο αναγνώρισης προσώπου off-the-shelf με ResNet100 πλάτη που εκπαιδεύτηκε στο AdaFace συνάρτηση απώλειας (στο WebFace12M σύνολο δεδομένων).

Τα έξι συνθετικά σύνολα δεδομένων που χρησιμοποιήθηκαν ήταν: DCFace (ένα μοντέλο λатεντικής διάχυσης); IDiff-Face (Ενιαίο – ένα μοντέλο διάχυσης βασισμένο στο FFHQ); IDiff-Face (Δύο-στάδιο – μια παραλλαγή που χρησιμοποιεί μια διαφορετική μέθοδο δειγματοληψίας); GANDiffFace (βασισμένο σε Γεννητικά Αντιπαλά Δίκτυα και Μοντέλα Διάχυσης, χρησιμοποιώντας StyleGAN3 για τη δημιουργία αρχικών ταυτοτήτων, και στη συνέχεια DreamBooth για τη δημιουργία ποικιλών παραδειγμάτων); IDNet (μια μέθοδος GAN, βασισμένη στο StyleGAN-ADA); και SFace (ένα πλαίσιο προστασίας ταυτότητας).

Συμπέρασμα

Πρόσφατα, η προσοχή των μέσων ενημέρωσης έχει τονίσει τις μειωμένες αποδόσεις που λαμβάνονται από την εκπαίδευση μοντέλων τεχνητής νοημοσύνης σε δεδομένα που παράγονται από τη τεχνητή νοημοσύνη.

Η νέα ελβετική έρευνα, ωστόσο, φέρνει στο επίκεντρο μια σκέψη που μπορεί να είναι πιο επείγουσα για τον αυξανόμενο αριθμό εταιρειών που επιθυμούν να εκμεταλλευτούν και να κερδίσουν από τη γεννητική τεχνητή νοημοσύνη – η διατήρηση των προτύπων δεδομένων που προστατεύονται από πνευματικά δικαιώματα ή μη εξουσιοδοτημένα, ακόμη και σε σύνολα δεδομένων που σχεδιάζονται για να καταπολεμήσουν αυτήν την πρακτική. Αν θα έπρεπε να της δώσουμε μια ορισμό, σε αυτήν την περίπτωση θα μπορούσε να ονομαστεί “πρόσωπο-πλύσιμο”.

 

* Ωστόσο, η απόφαση της Adobe να επιτρέψει την ανέβασή τους από τους χρήστες AI-παραγόμενα εικόνες στο Adobe Stock έχει υπονομεύσει αποτελεσματικά την “πurity” των δεδομένων. Το Bloomberg ισχυρίστηκε τον Απρίλιο του 2024 ότι οι εικόνες που ανέβηκαν από τους χρήστες από το γεννητικό σύστημα MidJourney είχαν ενσωματωθεί στις ικανότητες του Firefly.

Το μοντέλο αυτό δεν αναφέρεται στο έγγραφο.

Πρώτη δημοσίευση την Τετάρτη, 6 Νοεμβρίου 2024

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]