Κυβερνοασφάλεια

Κλοπή Μοντέλων Μηχανικής Μάθησης Μέσω API Output

Published May 18, 2022

Updated April 5, 2026

Martin Anderson

Νέα έρευνα από τον Καναδά προσφέρει μια πιθανή μέθοδο με την οποία οι επιτιθέμενοι θα μπορούσαν να κλέψουν τα οφέλη από ακριβά μοντέλα μηχανικής μάθησης, ακόμη και όταν η μόνη πρόσβαση σε ένα ιδιοκτητικό σύστημα είναι μέσω ενός υψηλά εξαγνισμένου και φαινομενικά καλά αμυνόμενου API (μια διεπαφή ή πρωτόκολλο που επεξεργάζεται αιτήματα χρήστη στο πλευρό του διακομιστή και επιστρέφει μόνο την απάντηση εξόδου).

Καθώς ο τομέας της έρευνας κοιτάζει όλο και περισσότερο προς τη μετοχοποίηση της ακριβής εκπαίδευσης μοντέλων μέσω της Υπηρεσίας Μηχανικής Μάθησης (MLaaS), η νέα εργασία υποδηλώνει ότι τα μοντέλα Αυτο-Επιβλεπόμενης Μάθησης (SSL) είναι πιο ευάλωτα σε αυτό το είδος εξαγωγής μοντέλων, επειδή εκπαιδεύονται χωρίς ετικέτες χρήστη, απλοποιώντας την εξαγωγή και συνήθως παρέχουν αποτελέσματα που περιέχουν πολλές χρήσιμες πληροφορίες για κάποιον που επιθυμεί να αναπαράγει το (κρυφό) αρχικό μοντέλο.

Στις.simulations “black box” (όπου οι ερευνητές έδωσαν στον εαυτό τους keine πρόσβαση σε ένα τοπικό “θύμα” μοντέλο από αυτή που θα είχε ένας τυπικός τελικός χρήστης μέσω ενός web API), οι ερευνητές μπόρεσαν να αναπαράγουν τα συστήματα-στόχους με σχετικά χαμηλές πόρους:

‘[Οι] επιθέσεις μας μπορούν να κλέψουν ένα αντίγραφο του θύματος μοντέλου που επιτυγχάνει σημαντική απόδοση σε λιγότερες από 1/5 των ερωτημάτων που χρησιμοποιούνται για την εκπαίδευση του θύματος. Ενάντια σε ένα θύμα μοντέλο που εκπαιδεύτηκε σε 1,2 εκατομμύρια μη ετικετεμένα δείγματα από ImageNet, με ακρίβεια 91,9% στην κατηγοριοποίηση Fashion-MNIST, η άμεση επιθετική μας επιθεση με την απώλεια InfoNCE έκλεψε ένα αντίγραφο του κωδικοποιητή που επιτυγχάνει 90,5% ακρίβεια σε 200.000 ερωτήματα.

‘Ομοίως, ενάντια σε ένα θύμα που εκπαιδεύτηκε σε 50.000 μη ετικετεμένα δείγματα από CIFAR10, με ακρίβεια 79,0% στην κατηγοριοποίηση CIFAR10, η άμεση επιθετική μας επιθεση με την απώλεια SoftNN έκλεψε ένα αντίγραφο που επιτυγχάνει 76,9% ακρίβεια σε 9.000 ερωτήματα.’

The researchers used three attack methods, finding that 'Direct Extraction' was the most effective. These models were stolen from a locally recreated CIFAR10 victim encoder using 9,000 queries from the CIFAR10 test-set. Source: https://arxiv.org/pdf/2205.07890.pdf

Οι ερευνητές χρησιμοποίησαν τρεις μεθόδους επιθέσεων, βρίσκοντας ότι η ‘Άμεση Εξαγωγή’ ήταν η πιο αποτελεσματική. Αυτά τα μοντέλα κλέφθηκαν από ένα τοπικά αναδημιουργημένο CIFAR10 θύμα κωδικοποιητή χρησιμοποιώντας 9.000 ερωτήματα από το σύνολο δοκιμής CIFAR10. Source: https://arxiv.org/pdf/2205.07890.pdf

Οι ερευνητές σημειώνουν επίσης ότι οι μέθοδοι που είναι κατάλληλες για την προστασία των εποπτευόμενων μοντέλων από επιθέσεις δεν προσαρμόζονται καλά στα μοντέλα που εκπαιδεύονται σε μη εποπτευόμενη βάση – mặc dù τέτοια μοντέλα αντιπροσωπεύουν κάποια από τα πιο αναμενόμενα και εορτασμένα οφέλη του τομέα σύνθεσης εικόνων.

Το νέο έγγραφο έχει τον τίτλο Σχετικά με τη Δυσκολία της Άμυνας της Αυτο-Επιβλεπόμενης Μάθησης κατά της Εξαγωγής Μοντέλων, και προέρχεται από το Πανεπιστήμιο του Τορόντο και το Ινστιτούτο Διανύσματος για Τεχνητή Νοημοσύνη.

Αυτο-Επίγνωση

Στην Αυτο-Επιβλεπόμενη Μάθηση, ένα μοντέλο εκπαιδεύεται σε μη ετικετεμένα δεδομένα. Χωρίς ετικέτες, ένα μοντέλο SSL πρέπει να μάθει συσχετίσεις και ομάδες από την 암 xúcτική δομή των δεδομένων, αναζητώντας παρόμοια χαρακτηριστικά των δεδομένων και σταδιακά ομαδοποιώντας αυτά τα χαρακτηριστικά σε κόμβους ή αναπαραστάσεις.

Όπου μια προσέγγιση SSL είναι εφικτή, είναι απίστευτα παραγωγική, поскольку παρακάμπτει την ανάγκη για ακριβή (συχνά εξωτερική και αμφισβητούμενη) κατηγοριοποίηση από crowdworkers, και ουσιαστικά ορθολογεί τα δεδομένα αυτονομamente.

Οι τρεις προσεγγίσεις SSL που εξετάστηκαν από τους συγγραφείς του νέου εγγράφου είναι SimCLR, ένα Siamese Network; SimSiam, ένα άλλο Siamese Network που επικεντρώνεται στη μάθηση αναπαράστασης; και Barlow Twins, μια προσέγγιση SSL που επιτύγχασε την καλύτερη απόδοση ταξινόμησης ImageNet στην κυκλοφορία της το 2021.

Η εξαγωγή μοντέλων για ετικετεμένα δεδομένα (δηλ. ένα μοντέλο που εκπαιδεύτηκε μέσω εποπτευόμενης μάθησης) είναι ένα σχετικά καλά τεκμηριωμένο ερευνητικό πεδίο. Είναι επίσης πιο εύκολο να αμυνθεί,既然 ο επιτιθέμενος πρέπει να αποκτήσει τις ετικέτες από το θύμα μοντέλο για να αναπαράγει αυτό.

A 'knockoff classifier' attack model against a supervised learning architecture. Source: https://arxiv.org/pdf/1812.02766.pdf

Από eine προηγούμενη εργασία, ένα μοντέλο επιθέσεων ‘knockoff classifier’ ενάντια σε μια αρχιτεκτονική εποπτευόμενης μάθησης. Source: https://arxiv.org/pdf/1812.02766.pdf

Χωρίς λευκή-κουτί πρόσβαση, αυτό δεν είναι μια εύκολη εργασία,既然 η τυπική έξοδος από ένα αίτημα API σε τέτοιο μοντέλο περιέχει λιγότερες πληροφορίες από ότι με ένα τυπικό API SSL.

Από το έγγραφο*:

‘Παλιά εργασία σχετικά με την εξαγωγή μοντέλων εστίασε στο περιβάλλον Εποπτευόμενης Μάθησης (SL), όπου το θύμα μοντέλο συνήθως επιστρέφει μια ετικέτα ή άλλες χαμηλο-διαστατικές εξόδους όπως βαθμοί εμπιστοσύνης ή logits.

‘Σε αντίθεση, οι κωδικοποιητές SSL επιστρέφουν υψηλο-διαστατικές αναπαραστάσεις; το de facto εξοδος για ένα μοντέλο ResNet-50 Sim-CLR, μια δημοφιλής αρχιτεκτονική στην όραση, είναι ένα 2048-διαστατικό διάνυσμα.

‘Υποθέτουμε ότι αυτή η σημαντικά υψηλότερη διαρροή πληροφοριών από τους κωδικοποιητές τους κάνει πιο ευάλωτους σε επιθέσεις εξαγωγής από τα μοντέλα SL.’

Αρχιτεκτονική και Δεδομένα

Οι ερευνητές δοκιμάζουν τρεις προσεγγίσεις για την εξαγωγή μοντέλων SSL: Άμεση Εξαγωγή, στην οποία η έξοδος API συγκρίνεται με την έξοδο ενός αναδημιουργημένου κωδικοποιητή μέσω μιας κατάλληλης συνάρτησης απώλειας όπως η Μέση Τετραγωνική Σφάλμα (MSE); αναδημιουργώντας το κεφάλι προβολής, όπου μια κρίσιμη αναλυτική λειτουργικότητα του μοντέλου, συνήθως απορρίπτεται πριν από την ανάπτυξη, ανασυντάσσεται και χρησιμοποιείται σε ένα αναπαραγόμενο μοντέλο; και πρόσβαση στο κεφάλι προβολής, το οποίο είναι δυνατό μόνο σε περιπτώσεις όπου οι αρχικοί開発τές έχουν κάνει την αρχιτεκτονική διαθέσιμη.

Στη μέθοδο #1, Άμεση Εξαγωγή, η έξοδος του θύματος μοντέλου συγκρίνεται με την έξοδο ενός τοπικού μοντέλου; η μέθοδος #2 περιλαμβάνει την αναδημιουργία του κεφαλιού προβολής που χρησιμοποιείται στην αρχική αρχιτεκτονική εκπαίδευσης (και συνήθως δεν περιλαμβάνεται σε ένα αναπτυγμένο μοντέλο).

Οι ερευνητές βρήκαν ότι η Άμεση Εξαγωγή ήταν η πιο αποτελεσματική μέθοδος για την απόκτηση eines λειτουργικού αντιγράφου του στόχου μοντέλου, και έχει το πρόσθετο πλεονέκτημα ότι είναι η πιο δύσκολη να χαρακτηριστεί ως ‘επιθέσεις’ (επειδή συμπεριφέρεται σχεδόν όμοια με ένα τυπικό και έγκυρο τελικό χρήστη).

Οι συγγραφείς εκπαίδευσαν τα θύματα μοντέλα σε τρεις συνόλους εικόνων: CIFAR10, ImageNet, και Stanford’s Street View House Numbers (SVHN). ImageNet εκπαιδεύτηκε σε ResNet50, ενώ CIFAR10 και SVHN εκπαιδεύτηκαν σε ResNet18 και ResNet24 μέσω μιας ελεύθερης υλοποίησης PyTorch της SimCLR.

Η απόδοση των μοντέλων σε καθήκοντα (δηλ. αναπτυγμένα) δοκιμάστηκε ενάντια CIFAR100, STL10, SVHN, και Fashion-MNIST. Οι ερευνητές πειραματίστηκαν επίσης με περισσότερες ‘λευκές-κουτί’ μεθόδους απόκτησης μοντέλων, αν και αποδείχθηκε ότι η Άμεση Εξαγωγή, η λιγότερο προνομιούχα προσέγγιση, έδωσε τα καλύτερα αποτελέσματα.

Για να αξιολογήσουν τις αναπαραστάσεις που συναντώνται και αναπαράγονται στις επιθέσεις, οι συγγραφείς πρόσθεσαν ένα γραμμικό στρώμα προβλέψεων στο μοντέλο, το οποίο ήταν εξευγενισμένο στο πλήρες ετικετεμένο σύνολο εκπαίδευσης από το επόμενο (καθήκον), με το υπόλοιπο δίκτυο παγωμένο. Με αυτόν τον τρόπο, η ακρίβεια δοκιμής στην στρώμα προβλέψεων μπορεί να λειτουργήσει ως μετρητής απόδοσης.既然 δεν συνεισφέρει τίποτα στη διαδικασία συναγωγής, αυτό δεν αντιπροσωπεύει ‘λευκή-κουτί’ λειτουργικότητα.

Αποτελέσματα στις δοκιμαστικές διαδρομές, που καθίστανται δυνατές από το (μη-συνεισφέρον) Στρώμα Γραμμικής Αξιολόγησης. Ακρίβειας σκορ σε έντονα.

Σχολιάζοντας τα αποτελέσματα, οι ερευνητές δηλώνουν:

‘Βρίσκουμε ότι το άμεσο αντικείμενο της μίμησης των αναπαραστάσεων του θύματος δίνει υψηλή απόδοση σε καθήκοντα尽管 η επίθεση απαιτεί μόνο ένα κλάσμα (λιγότερο από 15% σε ορισμένες περιπτώσεις) του αριθμού των ερωτημάτων που χρειάζονται για την εκπαίδευση του κλεμμένου κωδικοποιητή στην αρχή.’

Και συνεχίζουν:

‘[Είναι] δύσκολο να αμυνθεί οι κωδικοποιητές που εκπαιδεύονται με SSL既然 οι εξόδους αναπαραστάσεων διαρρέουν μια σημαντική ποσότητα πληροφοριών. Οι πιο υποσχόμενες αμυντικές μέθοδοι είναι οι αντιδραστικές μεθόδους, όπως η σφραγίδα νερού, που μπορούν να ενσωματώσουν συγκεκριμένες αυξήσεις σε υψηλής ικανότητας κωδικοποιητές.’

* Η μετατροπή μου των εσωτερικών παραπομπών του εγγράφου σε υπερσυνδέσμους.

Πρώτη δημοσίευση 18ης Μαΐου 2022.

Related Topics:crime cybersecurity research security theft

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]

Unite.AI

Κλοπή Μοντέλων Μηχανικής Μάθησης Μέσω API Output

Αυτο-Επίγνωση

Αρχιτεκτονική και Δεδομένα

You may like