Cybersecurity

Forklarlig AI kan overgi konfidensielle data lettere

Publisert

3 år siden

August 26, 2021

Forskere fra National University of Singapore har konkludert med at jo mer forklarlig AI blir, jo lettere blir det å omgå viktige personvernfunksjoner i maskinlæringssystemer. De fant også at selv når en modell ikke er forklarlig, er det mulig å bruke forklaringer av lignende modeller for å "dekode" sensitive data i den ikke-forklarlige modellen.

De forskning, med tittelen Utnyttende forklaringer på modellinversjonsangrep, fremhever risikoen ved å bruke den "tilfeldige" opasiteten til måten nevrale nettverk fungerer på som om dette var en bydesign-sikkerhetsfunksjon – ikke minst fordi en bølge av nye globale initiativer, inkludert EUs utkast til AI-forskrifterHar karakteriserende forklarbar AI (XAI) som en forutsetning for eventuell normalisering av maskinlæring i samfunnet.

I forskningen er en faktisk identitet vellykket rekonstruert fra antatt anonyme data relatert til ansiktsuttrykk, gjennom utnyttelse av flere forklaringer av maskinlæringssystemet. Kilde: https://arxiv.org/pdf/2108.10800.pdf

Forskerne kommenterer:

«Explainable Artificial Intelligence (XAI) gir mer informasjon for å hjelpe brukere til å forstå modellbeslutninger, men denne tilleggskunnskapen avslører ytterligere risikoer for personvernangrep. Derfor skader privatlivet å gi forklaring.'

Re-identifikasjon av private data

Deltakere i datasett for maskinlæring kan ha samtykket til å bli inkludert under forutsetning av anonymitet; i tilfelle av personlig identifiserbar informasjon (PII) som ender opp i AI-systemer via ad hoc-datainnsamling (for eksempel gjennom sosiale nettverk), kan deltakelse være teknisk lovlig, men anstrenger begrepet "samtykke".

Flere metoder har dukket opp de siste årene som har vist seg i stand til å avanonymisere PII fra tilsynelatende ugjennomsiktige dataflyter for maskinlæring. Modelluttak bruker API-tilgang (dvs. «black box»-tilgang, uten spesiell tilgjengelighet av kildekoden eller data) for å trekke ut PII selv fra høyskala MLaaS-leverandører, inkludert Amazon Web Services, mens medlemskapsslutninger angriper (MIA), som opererer under lignende begrensninger, potensielt kan få konfidensiell medisinsk informasjon; i tillegg kan Attribution Inference Attacks (AIAs). gjenopprette sensitive data fra API-utgang.

Avslørende ansikter

For den nye artikkelen har forskerne konsentrert seg om et modellinversjonsangrep designet for å få en identitet fra en undergruppe av ansiktsfølelsesdata som ikke burde være i stand til å avsløre denne informasjonen.

Målet med systemet var å assosiere bilder funnet i naturen (enten lagt ut tilfeldig på internett eller i et potensielt datainnbrudd) med deres inkludering i datasettene som underbygger en maskinlæringsalgoritme.

Forskerne trente en inversjonsangrepsmodell som var i stand til å rekonstruere det bidragende bildet fra den anonymiserte API-utgangen, uten spesiell tilgang til den originale arkitekturen. Tidligere arbeid på dette feltet har konsentrert seg om systemer der identifikasjon (beskytte eller avsløre) var målet for både målsystemet og angrepssystemet; i dette tilfellet er rammeverket designet for å utnytte utdataene fra ett domene og bruke det på et annet domene.

A transponert convolutional neural network (CNN) ble brukt til å forutsi et "originalt" kildeansikt basert på målprediksjonsvektoren (saliency map) for et følelsesgjenkjenningssystem, ved å bruke en U-Net arkitektur for å forbedre ytelsen til ansiktsrekonstruksjon.

Re-identifikasjonssystemet er drevet og informert av forklarbar AI (XAI), der kunnskap om nevronaktivering, blant mange medvirkende offentlige XAI-fasetter, utnyttes til å rekonstruere arkitekturens interne maskinverk kun fra dens utdata, noe som muliggjør re-identifikasjon av bidragende datasettbilder.

Testing

Ved testing av systemet brukte forskerne det mot tre datasett: iCV-MEFED ansiktsuttrykk; KjendisA, Og MNIST håndskrevne sifre. For å imøtekomme modellstørrelsen som brukes av forskerne, ble størrelsen på de tre datasettene endret til henholdsvis 128×128, 265×256 og 32×32 piksler. 50 % av hvert sett ble brukt som treningsdata, og den andre halvparten ble brukt som angrepsdatasett for å trene antagonistmodellene.

Hvert datasett hadde forskjellige målmodeller, og hvert angrepsnettverk ble skalert til begrensningene til forklaringene som lå til grunn for prosessen, i stedet for å bruke dypere nevrale modeller hvis kompleksitet ville overstige generaliseringen av forklaringene.

XAI-forklaringstypene som ble brukt til å drive forsøkene inkludert Gradientforklaring, Gradientinngang, Grad-CAM og lagmessig relevansutbredelse (LRP). Forskerne evaluerte også flere forklaringer på tvers av eksperimentene.

Bilderekonstruksjon tilrettelagt av et XAI-kjennt inversjonsangrep på tvers av de tre datasettene, med identiske mål- og angrepsoppgaver.

Beregningene for testen ble pikselvis likhet evaluert av Gjennomsnittlig kvadratfeil (MSE); Bildelikhet (SSIM), en perseptuelt basert likhetsindeks; angrepsnøyaktighet, bestemt av om en klassifikator kan re-merke et rekonstruert bilde; og angrepsinnbyggingslikhet, som sammenligner funksjonsinnbyggingen av kjente kildedata mot rekonstruerte data.

Re-identifikasjon ble oppnådd, med varierende nivåer i henhold til oppgaven og datasettene, på tvers av alle settene. Videre fant forskerne at ved å lage en surrogatmålmodell (som de naturligvis hadde full kontroll over), var det fortsatt mulig å oppnå re-identifikasjon av data fra eksterne, 'lukkede' modeller, basert på kjente XAI-prinsipper.

Forskerne fant at de mest nøyaktige resultatene ble oppnådd ved aktiveringsbaserte (saliency map) forklaringer, som lekket mer PII enn sensitivitetsbaserte (gradient) tilnærminger.

I fremtidig arbeid har teamet til hensikt å inkorporere forskjellige typer XAI-forklaringer i nye angrep, som f.eks. funksjonsvisualiseringer og konseptaktiveringsvektorer.