Κυβερνοασφάλεια

Η Εξηγήσιμη AI μπορεί να Παραδώσει Ευαίσθητα Δεδομένα με Greater Ευκολία

Published August 26, 2021

Updated April 5, 2026

Martin Anderson

Ερευνητές από το Εθνικό Πανεπιστήμιο της Σιγκαπούρης έχουν καταλήξει στο συμπέρασμα ότι όσο πιο εξηγήσιμη γίνεται η AI, τόσο πιο εύκολα θα γίνει να παρακαμφθούν τα ζωτικά χαρακτηριστικά προστασίας της ιδιωτικής ζωής στα συστήματα μηχανικής μάθησης. Επίσης, βρήκαν ότι ακόμη και όταν ένα μοντέλο δεν είναι εξηγήσιμο, είναι δυνατό να χρησιμοποιηθούν εξηγήσεις από παρόμοια μοντέλα για να “αποκωδικοποιήσουν” ευαίσθητα δεδομένα στο μη εξηγήσιμο μοντέλο.

Η έρευνα, με τίτλο Εξαγορά Εξηγήσεων για Επιθέσεις Ανάστροφης Μοντελοποίησης, υπογραμμίζει τους κινδύνους της χρήσης της “τυχαίας” αδιαφάνειας του τρόπου με τον οποίο λειτουργούν τα νευρωνικά δίκτυα ως αν το ήταν μια χαρακτηριστική ασφάλεια – όχι τουλάχιστον επειδή μια νέα κυμαία από διεθνείς πρωτοβουλίες, συμπεριλαμβανομένων των προσχέδιων κανονισμών AI της Ευρωπαϊκής Ένωσης, χαρακτηρίζουν την εξηγήσιμη AI (XAI) ως προαπαιτούμενο για την τελική ομαλοποίηση της μηχανικής μάθησης στην κοινωνία.

Στην έρευνα, μια πραγματική ταυτότητα ανακατασκευάζεται με επιτυχία από υποτιθέμενα ανώνυμα δεδομένα που σχετίζονται με εκφράσεις του προσώπου, μέσω της εκμετάλλευσης πολλαπλών εξηγήσεων του συστήματος μηχανικής μάθησης. Πηγή: https://arxiv.org/pdf/2108.10800.pdf

Οι ερευνητές σχολιάζουν:

‘Η εξηγήσιμη τεχνητή νοημοσύνη (XAI) παρέχει περισσότερες πληροφορίες για να βοηθήσει τους χρήστες να κατανοήσουν τις αποφάσεις του μοντέλου, ωστόσο αυτή η πρόσθετη γνώση εκθέτει πρόσθετους κινδύνους για επιθέσεις ιδιωτικής ζωής. Έτσι, η παροχή εξηγήσεων βλάπτει την ιδιωτικότητα.’

Επαναταυτότητα Ιδιωτικών Δεδομένων

Οι συμμετέχοντες σε σύνολα δεδομένων μηχανικής μάθησης μπορεί να έχουν δώσει τη συγκατάθεσή τους να περιλαμβάνονται με την υπόθεση της ανωνυμία; στην περίπτωση των Προσωπικών Ταυτοποιητικών Πληροφοριών (PII) που καταλήγουν σε συστήματα AI μέσω ανεπίσημης συλλογής δεδομένων (για παράδειγμα, μέσω κοινωνικών δικτύων), η συμμετοχή μπορεί να είναι τεχνικά νόμιμη, αλλά πιέζει την έννοια της “συγκατάθεσης”.

Πολλές μεθόδοι έχουν εμφανιστεί τα τελευταία χρόνια που έχουν αποδείξει ότι είναι ικανές να αποανωνυμοποιούν PII από οφέλους μηχανικής μάθησης που φαίνονται αδιαφανή. Η εξαγωγή μοντέλου χρησιμοποιεί πρόσβαση API (δηλαδή “μαύρο κουτί” πρόσβαση, χωρίς ειδική διαθεσιμότητα του πηγαίου κώδικα ή δεδομένων) για να εξαγάγει PII ακόμη και από μεγάλους παρόχους MLaaS, συμπεριλαμβανομένων των Amazon Web Services, ενώ οι Επιθέσεις Ανάστροφης Μέλους (MIAs), που λειτουργούν υπό παρόμοιους περιορισμούς, μπορούν να λάβουν επικίνδυνα ιατρικές πληροφορίες; επιπλέον, οι Επιθέσεις Ανάστροφης Απόδοσης (AIAs) μπορούν να ανακτήσουν ευαίσθητα δεδομένα από έξοδο API.

Αποκάλυψη Προσώπων

Για το νέο έγγραφο, οι ερευνητές έχουν επικεντρωθεί σε μια επίθεση ανάστροφης μοντελοποίησης που σχεδιάστηκε για να λάβει μια ταυτότητα από ένα υποσύνολο δεδομένων εκφράσεων του προσώπου που δεν θα πρέπει να είναι ικανό να αποκαλύψει αυτή την πληροφορία.

Ο στόχος του συστήματος ήταν να συνδέσει εικόνες που βρέθηκαν στο διαδίκτυο (είτε δημοσιευμένες τυχαία στο διαδίκτυο ή σε μια πιθανή διαρροή δεδομένων) με την ένταξή τους στα σύνολα δεδομένων που υποστηρίζουν ένα σύστημα μηχανικής μάθησης.

Οι ερευνητές εκπαίδευσαν ένα μοντέλο ανάστροφης επίθεσης που ήταν ικανό να ανακατασκευάσει την αρχική εικόνα από την ανώνυμη έξοδο API, χωρίς ειδική πρόσβαση στην αρχική αρχιτεκτονική. Προηγούμενη εργασία σε αυτό το πεδίο έχει επικεντρωθεί σε συστήματα όπου η ταυτότητα (προστασία ή αποκάλυψη) ήταν ο στόχος και του στόχου συστήματος και του συστήματος επίθεσης; σε αυτή την περίπτωση, το πλαίσιο έχει σχεδιαστεί για να εκμεταλλευτεί την έξοδο ενός τομέα και να την εφαρμόσει σε ένα διαφορετικό τομέα.

Ένα αντιστραφέν συνελικτικό νευρωνικό δίκτυο (CNN) χρησιμοποιήθηκε για να προβλέψει μια “πρωταρχική” πηγή πρόσωπο με βάση τον στόχο προβλέψιμου διανύσματος (χάρτη σαλητήrias) για ένα σύστημα αναγνώρισης συναισθήματος, χρησιμοποιώντας μια αρχιτεκτονική U-Net για να βελτιώσει την απόδοση ανακατασκευής προσώπου.

Το σύστημα επαναταυτότητας τροφοδοτείται και ενημερώνεται από την εξηγήσιμη AI (XAI), όπου η γνώση της ενεργοποίησης νευρώνων, μεταξύ πολλών συνεισφορών δημοσίων πτυχών XAI, εκμεταλλεύεται την ανακατασκευή των εσωτερικών μηχανισμών της αρχιτεκτονικής μόνο από την έξοδό της, επιτρέποντας την επαναταυτότητα των εικόνων του συνόλου δεδομένων.

Δοκιμές

Στις δοκιμές του συστήματος, οι ερευνητές το applied σε τρία σύνολα δεδομένων: iCV-MEFED εκφράσεις προσώπου; CelebA; και MNIST handwritten digits. Για να ταιριάζουν στο μέγεθος του μοντέλου που χρησιμοποιούσαν οι ερευνητές, τα τρία σύνολα δεδομένων είχαν αναμορφωθεί αντίστοιχα σε 128×128, 265×256 και 32×32 pixels. Το 50% κάθε συνόλου χρησιμοποιήθηκε ως δεδομένα εκπαίδευσης, και το άλλο μισό χρησιμοποιήθηκε ως σύνολο δεδομένων επίθεσης για να εκπαιδεύσει τα αντίπαλα μοντέλα.

Κάθε σύνολο δεδομένων είχε διαφορετικά μοντέλα στόχου, και κάθε δίκτυο επίθεσης είχε κλιμακωθεί στα όρια των εξηγήσεων που υποστήριζαν τη διαδικασία, αντί να χρησιμοποιούν βαθύτερα νευρωνικά μοντέλα που θα ξεπερνούσαν την γενίκευση των εξηγήσεων.

Οι τύποι εξηγήσεων XAI που χρησιμοποιήθηκαν για να τροφοδοτήσουν τις προσπάθειες περιελάμβαναν Εξήγηση Κλίσης, Εισαγωγή Κλίσης, Grad-CAM και Layer-Wise Relevance Propagation (LRP). Οι ερευνητές αξιολόγησαν επίσης πολλές εξηγήσεις σε suốt τις πειραματικές διαδικασίες.

Ανακατασκευή εικόνας που διευκολύνεται από μια επίθεση ανάστροφης μοντελοποίησης XAI σε suốt τα τρία σύνολα δεδομένων, με ταυτόχρονα στόχους και επιθέσεις.

Οι μετρήσεις για τη δοκιμή ήταν pixelwise ομοιότητα που αξιολογήθηκε από Μέσο Τετραγωνικό Λάθος (MSE); Ομοιότητα Εικόνας (SSIM), ένας δείκτης ομοιότητας με βάση την αντίληψη; ακρίβεια επίθεσης, που καθορίζεται από το εάν ένας ταξινομητής μπορεί να επαναταξινομήσει με επιτυχία μια ανακατασκευασμένη εικόνα; και ομοιότητα ενσωμάτωσης επίθεσης, που συγκρίνει τις ενσωματώσεις χαρακτηριστικών των γνωστών πηγαίων δεδομένων με ανακατασκευασμένα δεδομένα.

Η επαναταυτότητα επιτεύχθηκε, με διαφορετικά επίπεδα ανάλογα με την εργασία και τα σύνολα δεδομένων, σε suốt τα σύνολα. Επιπλέον, οι ερευνητές βρήκαν ότι με την κατασκευή ενός υποκατάστατου μοντέλου στόχου (το οποίο είχαν φυσικά πλήρη έλεγχο), ήταν ακόμη δυνατό να επιτευχθεί η επαναταυτότητα δεδομένων από εξωτερικά, “κλειστά” μοντέλα, με βάση γνωστές αρχές XAI.

Οι ερευνητές βρήκαν ότι τα πιο ακριβή αποτελέσματα έγιναν με εξηγήσεις που βασίζονται στην ενεργοποίηση (χάρτη σαλητήrias), οι οποίες漏ляли περισσότερες PII από τις προσεγγίσεις που βασίζονται στη ευαισθησία (κλίση).

Σε μελλοντική εργασία, η ομάδα σκοπεύει να ενσωματώσει διαφορετικούς τύπους εξηγήσεων XAI σε νέες επιθέσεις, όπως οπτικοποιήσεις χαρακτηριστικών και διανύσματα ενεργοποίησης έννοιας.

Related Topics:explainability Explainable AI explainable neural networks model inversion research

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]