Sicurezza informatica

Rubare Modelli di Machine Learning Attraverso l’Output dell’API

Published May 18, 2022

Updated April 5, 2026

Martin Anderson

Nuove ricerche condotte in Canada offrono un possibile metodo con cui gli attaccanti potrebbero rubare i frutti di costosi framework di machine learning, anche quando l’unico accesso a un sistema proprietario è tramite un’API (un’interfaccia o protocollo che elabora le query dell’utente sul lato server e restituisce solo la risposta di output) altamente sanificata e apparentemente ben difesa.

Mentre il settore della ricerca si sta rivolgendo sempre più verso la monetizzazione dell’addestramento dei modelli costosi attraverso implementazioni di Machine Learning as a Service (MLaaS), il nuovo lavoro suggerisce che i modelli di apprendimento autosufficiente (SSL) sono più vulnerabili a questo tipo di estrazione del modello, poiché sono addestrati senza etichette utente, semplificando l’estrazione e fornendo in genere risultati che contengono una grande quantità di informazioni utili per chi desidera replicare il modello sorgente (nascosto).

Nelle simulazioni di test “black box” (in cui i ricercatori si sono concessi solo l’accesso a un modello “vittima” locale come qualsiasi utente finale avrebbe attraverso un’API web), i ricercatori sono stati in grado di replicare i sistemi bersaglio con risorse relativamente basse:

‘I nostri attacchi possono rubare una copia del modello vittima che raggiunge prestazioni considerevoli a valle in meno di 1/5 delle query utilizzate per addestrare il modello vittima. Contro un modello vittima addestrato su 1,2 milioni di campioni non etichettati da ImageNet, con una precisione del 91,9% nel compito di classificazione a valle Fashion-MNIST, il nostro attacco di estrazione diretta con la perdita InfoNCE ha rubato una copia dell’encoder che raggiunge una precisione del 90,5% in 200.000 query.

‘Allo stesso modo, contro un modello vittima addestrato su 50.000 campioni non etichettati da CIFAR10, con una precisione del 79,0% nel compito di classificazione a valle CIFAR10, il nostro attacco di estrazione diretta con la perdita SoftNN ha rubato una copia che raggiunge una precisione del 76,9% in 9.000 query.’

I ricercatori hanno utilizzato tre metodi di attacco, scoprendo che l’estrazione diretta era il metodo più efficace. Questi modelli sono stati rubati da un encoder CIFAR10 vittima ricreato localmente utilizzando 9.000 query dal set di test CIFAR10. Source: https://arxiv.org/pdf/2205.07890.pdf

I ricercatori notano anche che i metodi che sono adatti per proteggere i modelli supervisionati dagli attacchi non si adattano bene ai modelli addestrati su base non supervisionata – anche se tali modelli rappresentano alcuni dei frutti più attesi e celebrati del settore della sintesi di immagini.

Il nuovo documento è intitolato Sulla difficoltà di difendere l’apprendimento autosufficiente contro l’estrazione del modello, e proviene dall’Università di Toronto e dall’Istituto vettoriale per l’intelligenza artificiale.

Autoconsapevolezza

Nell’apprendimento autosufficiente, un modello viene addestrato su dati non etichettati. Senza etichette, un modello SSL deve apprendere associazioni e gruppi dalla struttura implicita dei dati, cercando faccette di dati simili e gradualmente raggruppandole in nodi, o rappresentazioni.

Quando un approccio SSL è fattibile, è incredibilmente produttivo, poiché bypassa la necessità di una costosa (spesso esternalizzata e controversa) categorizzazione da parte di lavoratori della folla, e razionalizza essenzialmente i dati in modo autonomo.

I tre approcci SSL considerati dagli autori del nuovo documento sono SimCLR, una Rete Siamese; SimSiam, un’altra rete Siamese centrata sull’apprendimento di rappresentazioni; e Barlow Twins, un approccio SSL che ha raggiunto prestazioni di classificazione ImageNet all’avanguardia al momento della sua uscita nel 2021.

L’estrazione del modello per dati etichettati (cioè un modello addestrato attraverso apprendimento supervisionato) è un’area di ricerca relativamente ben documentata. È anche più facile da difendere, poiché l’attaccante deve ottenere le etichette dal modello vittima per ricrearlo.

Un modello di attacco 'knockoff classifier' contro un'architettura di apprendimento supervisionato. Source: https://arxiv.org/pdf/1812.02766.pdf

Da un documento precedente, un modello di attacco ‘knockoff classifier’ contro un’architettura di apprendimento supervisionato. Source: https://arxiv.org/pdf/1812.02766.pdf

Senza accesso white-box, questo non è un compito banale, poiché l’output tipico da una richiesta API a tale modello contiene meno informazioni rispetto a un’API SSL tipica.

Dal documento*:

‘I lavori precedenti sull’estrazione del modello si sono concentrati sull’ambito dell’apprendimento supervisionato (SL), in cui il modello vittima restituisce generalmente un’etichetta o altri output a bassa dimensionalità come punteggi di confidenza o logits.

‘In contrasto, gli encoder SSL restituiscono rappresentazioni ad alta dimensionalità; il de facto output per un modello ResNet-50 Sim-CLR, un’architettura popolare nella visione, è un vettore a 2048 dimensioni.

‘Ipotizziamo che questa perdita di informazioni significativamente più alta dagli encoder li renda più vulnerabili agli attacchi di estrazione rispetto ai modelli SL.’

Architettura e dati

I ricercatori hanno testato tre approcci all’inferenza/estrazione del modello SSL: estrazione diretta, in cui l’output dell’API viene confrontato con l’output di un encoder ricreato tramite una funzione di perdita appropriata come l’errore quadratico medio (MSE); ricreazione della testa di proiezione, dove una funzionalità analitica cruciale del modello, normalmente scartata prima della distribuzione, viene riassamblata e utilizzata in un modello replica; e accesso alla testa di proiezione, che è possibile solo nei casi in cui gli sviluppatori originali hanno reso disponibile l’architettura.

Nel metodo #1, estrazione diretta, l’output del modello vittima viene confrontato con l’output di un modello locale; il metodo #2 comporta la ricreazione della testa di proiezione utilizzata nell’architettura di addestramento originale (e di solito non inclusa in un modello distribuito).

I ricercatori hanno scoperto che l’estrazione diretta era il metodo più efficace per ottenere una replica funzionale del modello bersaglio e ha il vantaggio aggiuntivo di essere il più difficile da caratterizzare come un “attacco” (poiché si comporta essenzialmente come un utente finale tipico e valido).

‘[È] difficile difendere gli encoder addestrati con SSL poiché le rappresentazioni di output perdono una quantità sostanziale di informazioni. I metodi di difesa più promettenti sono metodi reattivi, come il watermarking, che possono incorporare specifiche modifiche in encoder ad alta capacità.’

* La mia conversione delle citazioni in linea del documento in collegamenti ipertestuali.

Pubblicato per la prima volta il 18 maggio 2022.