Ηγέτες της σκέψης
Τρεις τεχνικές μηχανικής εκμάθησης διατήρησης απορρήτου που επιλύουν το πιο σημαντικό ζήτημα αυτής της δεκαετίας
Από τον Amogh Tarcar, ερευνητή μηχανικής μάθησης και τεχνητής νοημοσύνης, Επίμονα Συστήματα.
Το απόρρητο δεδομένων, σύμφωνα με ειδικούς σε ένα ευρύ φάσμα τομέων, θα είναι το το σημαντικότερο θέμα αυτής της δεκαετίας. Αυτό ισχύει ιδιαίτερα για τη μηχανική εκμάθηση (ML) όπου οι αλγόριθμοι τροφοδοτούνται με ομάδες δεδομένων.
Παραδοσιακά, οι τεχνικές μοντελοποίησης ML βασίζονται στη συγκέντρωση δεδομένων από πολλαπλές πηγές σε ένα ενιαίο κέντρο δεδομένων. Εξάλλου, τα μοντέλα ML είναι στα πιο δυνατά τους όταν έχουν πρόσβαση σε τεράστιες ποσότητες δεδομένων. Ωστόσο, υπάρχουν πολλές προκλήσεις απορρήτου που συνοδεύουν αυτήν την τεχνική. Η συγκέντρωση διαφορετικών δεδομένων από πολλαπλές πηγές είναι λιγότερο εφικτή σήμερα λόγω ρυθμιστικών ανησυχιών όπως το HIPAA, το GDPR και το CCPA. Επιπλέον, η συγκέντρωση δεδομένων αυξάνει το εύρος και την κλίμακα της κακής χρήσης δεδομένων και των απειλών για την ασφάλεια με τη μορφή διαρροών δεδομένων.
Για να ξεπεραστούν αυτές οι προκλήσεις, έχουν αναπτυχθεί αρκετοί πυλώνες μηχανικής μάθησης για τη διατήρηση της ιδιωτικής ζωής (PPML) με συγκεκριμένες τεχνικές που μειώνουν τον κίνδυνο απορρήτου και διασφαλίζουν ότι τα δεδομένα παραμένουν εύλογα ασφαλή. Εδώ είναι μερικά από τα πιο σημαντικά:
1. Ομοσπονδιακή Μάθηση
Ομοσπονδιακή μάθηση είναι μια τεχνική εκπαίδευσης ML που ανατρέπει το πρόβλημα της συγκέντρωσης δεδομένων στο κεφάλι της. Αντί της συγκέντρωσης δεδομένων για τη δημιουργία ενός ενιαίου μοντέλου ML, η ομοσπονδιακή μάθηση συγκεντρώνει τα ίδια τα μοντέλα ML. Αυτό διασφαλίζει ότι τα δεδομένα δεν εγκαταλείπουν ποτέ την τοποθεσία προέλευσής τους και επιτρέπει σε πολλά μέρη να συνεργάζονται και να δημιουργούν ένα κοινό μοντέλο ML χωρίς να μοιράζονται άμεσα ευαίσθητα δεδομένα.
Δουλεύει κάπως έτσι. Ξεκινάτε με ένα βασικό μοντέλο ML που στη συνέχεια μοιράζεται με κάθε κόμβο πελάτη. Αυτοί οι κόμβοι στη συνέχεια εκτελούν τοπική εκπαίδευση σε αυτό το μοντέλο χρησιμοποιώντας τα δικά τους δεδομένα. Οι ενημερώσεις μοντέλων κοινοποιούνται περιοδικά στον κόμβο συντονιστή, ο οποίος επεξεργάζεται αυτές τις ενημερώσεις και τις συγχωνεύει για να αποκτήσει ένα νέο καθολικό μοντέλο. Με αυτόν τον τρόπο, λαμβάνετε πληροφορίες από διάφορα σύνολα δεδομένων χωρίς να χρειάζεται να μοιράζεστε αυτά τα σύνολα δεδομένων.

Πηγή: Persistent Systems
Στο πλαίσιο της υγειονομικής περίθαλψης, αυτό είναι ένα απίστευτα ισχυρό εργαλείο που έχει επίγνωση του απορρήτου για να διατηρεί ασφαλή τα δεδομένα των ασθενών ενώ δίνει στους ερευνητές τη σοφία του πλήθους. Με τη μη συγκέντρωση των δεδομένων, η ομοσπονδιακή μάθηση δημιουργεί ένα επιπλέον επίπεδο ασφάλειας. Ωστόσο, τα ίδια τα μοντέλα και οι ενημερώσεις μοντέλων εξακολουθούν να παρουσιάζουν κίνδυνο ασφαλείας εάν αφεθούν ευάλωτα.
2. Διαφορικό απόρρητο
Τα μοντέλα ML είναι συχνά στόχοι επιθέσεων συμπερασμάτων μέλους. Πείτε ότι επρόκειτο να μοιραστείτε τα δεδομένα της υγειονομικής σας περίθαλψης σε ένα νοσοκομείο για να βοηθήσετε στην ανάπτυξη ενός εμβολίου κατά του καρκίνου. Το νοσοκομείο διατηρεί τα δεδομένα σας ασφαλή, αλλά χρησιμοποιεί ομοσπονδιακή εκμάθηση για την εκπαίδευση ενός δημοσίως διαθέσιμου μοντέλου ML. Λίγους μήνες αργότερα, οι χάκερ χρησιμοποιούν μια επίθεση συμπερασμάτων μέλους για να προσδιορίσουν εάν τα δεδομένα σας χρησιμοποιήθηκαν στην εκπαίδευση του μοντέλου ή όχι. Στη συνέχεια, διαβιβάζουν πληροφορίες σε μια ασφαλιστική εταιρεία, η οποία, με βάση τον κίνδυνο καρκίνου, θα μπορούσε να αυξήσει τα ασφάλιστρά σας.
Το διαφορικό απόρρητο διασφαλίζει ότι οι επιθέσεις αντιπάλου σε μοντέλα ML δεν θα μπορούν να εντοπίσουν συγκεκριμένα σημεία δεδομένων που χρησιμοποιούνται κατά την εκπαίδευση, μετριάζοντας έτσι τον κίνδυνο έκθεσης ευαίσθητων δεδομένων εκπαίδευσης στη μηχανική εκμάθηση. Αυτό γίνεται με την εφαρμογή «στατιστικού θορύβου» για να διαταράξει τα δεδομένα ή τις παραμέτρους του μοντέλου μηχανικής εκμάθησης κατά την εκπαίδευση μοντέλων, καθιστώντας δύσκολη την εκτέλεση επιθέσεων και τον προσδιορισμό του εάν τα δεδομένα ενός συγκεκριμένου ατόμου χρησιμοποιήθηκαν για την εκπαίδευση του μοντέλου.
Για παράδειγμα, το Facebook κυκλοφόρησε πρόσφατα Opacus, μια βιβλιοθήκη υψηλής ταχύτητας για την εκπαίδευση μοντέλων PyTorch που χρησιμοποιεί έναν αλγόριθμο εκπαίδευσης μηχανικής μάθησης βασισμένο σε διαφορικό απόρρητο που ονομάζεται Διαφορική Ιδιωτική Στοχαστική Διαβάθμιση Κάθοδος (DP-SGD). Το παρακάτω gif υπογραμμίζει τον τρόπο με τον οποίο χρησιμοποιεί το θόρυβο για την απόκρυψη δεδομένων.
Αυτός ο θόρυβος διέπεται από μια παράμετρο που ονομάζεται Epsilon. Εάν η τιμή του Epsilon είναι χαμηλή, το μοντέλο έχει τέλειο απόρρητο δεδομένων αλλά κακή χρησιμότητα και ακρίβεια. Αντίστροφα, εάν έχετε υψηλή τιμή Epsilon, το απόρρητο των δεδομένων σας θα μειωθεί ενώ η ακρίβειά σας αυξάνεται. Το κόλπο είναι να επιτύχετε μια ισορροπία για βελτιστοποίηση και για τα δύο.
3. Ομομορφική κρυπτογράφηση
Η τυπική κρυπτογράφηση είναι παραδοσιακά ασύμβατη με τη μηχανική εκμάθηση, επειδή από τη στιγμή που τα δεδομένα κρυπτογραφηθούν δεν μπορούν πλέον να κατανοηθούν από τον αλγόριθμο ML. Ωστόσο, η ομομορφική κρυπτογράφηση είναι ένα ειδικό σχήμα κρυπτογράφησης που μας επιτρέπει να συνεχίσουμε να κάνουμε ορισμένους τύπους υπολογισμών.

Πηγή: OpenMined
Η δύναμη αυτού είναι ότι η εκπαίδευση μπορεί να γίνει σε έναν εντελώς κρυπτογραφημένο χώρο. Δεν προστατεύει μόνο τους κατόχους δεδομένων, αλλά προστατεύει επίσης τους κατόχους μοντέλων. Ο κάτοχος του μοντέλου μπορεί να εκτελέσει συμπεράσματα σε κρυπτογραφημένα δεδομένα χωρίς να τα δει ποτέ ή να τα χρησιμοποιήσει κατά λάθος.
Όταν εφαρμόζεται στην ομοσπονδιακή μάθηση, η συγχώνευση ενημερώσεων μοντέλων μπορεί να πραγματοποιηθεί με ασφάλεια επειδή λαμβάνουν χώρα σε ένα εντελώς κρυπτογραφημένο περιβάλλον, μειώνοντας δραστικά τον κίνδυνο επιθέσεων συμπερασμάτων μέλους.
Η δεκαετία της ιδιωτικής ζωής
Καθώς μπαίνουμε στο 2021, η μηχανική μάθηση για τη διατήρηση του απορρήτου είναι ένα αναδυόμενο πεδίο με εξαιρετικά ενεργή έρευνα. Εάν η τελευταία δεκαετία αφορούσε την απελευθέρωση δεδομένων, αυτή η δεκαετία θα αφορά την απελευθέρωση μοντέλων ML διατηρώντας παράλληλα το απόρρητο των υποκείμενων δεδομένων μέσω ομοσπονδιακής μάθησης, διαφορικού απορρήτου και ομομορφικής κρυπτογράφησης. Αυτά παρουσιάζουν έναν πολλά υποσχόμενο νέο τρόπο για την προώθηση των λύσεων μηχανικής εκμάθησης με τρόπο που λαμβάνει υπόψη το απόρρητο.