Cybersecurity
Forklarlig AI kan overgi konfidensielle data lettere
Forskere fra National University of Singapore har konkludert med at jo mer forklarlig AI blir, jo lettere blir det å omgå viktige personvernfunksjoner i maskinlæringssystemer. De fant også at selv når en modell ikke er forklarlig, er det mulig å bruke forklaringer av lignende modeller for å "dekode" sensitive data i den ikke-forklarlige modellen.
De forskning, med tittelen Utnyttende forklaringer på modellinversjonsangrep, fremhever risikoen ved å bruke den "tilfeldige" opasiteten til måten nevrale nettverk fungerer på som om dette var en bydesign-sikkerhetsfunksjon – ikke minst fordi en bølge av nye globale initiativer, inkludert EUs utkast til AI-forskrifterHar karakteriserende forklarbar AI (XAI) som en forutsetning for eventuell normalisering av maskinlæring i samfunnet.
Forskerne kommenterer:
«Explainable Artificial Intelligence (XAI) gir mer informasjon for å hjelpe brukere til å forstå modellbeslutninger, men denne tilleggskunnskapen avslører ytterligere risikoer for personvernangrep. Derfor skader privatlivet å gi forklaring.'
Re-identifikasjon av private data
Deltakere i datasett for maskinlæring kan ha samtykket til å bli inkludert under forutsetning av anonymitet; i tilfelle av personlig identifiserbar informasjon (PII) som ender opp i AI-systemer via ad hoc-datainnsamling (for eksempel gjennom sosiale nettverk), kan deltakelse være teknisk lovlig, men anstrenger begrepet "samtykke".
Flere metoder har dukket opp de siste årene som har vist seg i stand til å avanonymisere PII fra tilsynelatende ugjennomsiktige dataflyter for maskinlæring. Modelluttak bruker API-tilgang (dvs. «black box»-tilgang, uten spesiell tilgjengelighet av kildekoden eller data) for å trekke ut PII selv fra høyskala MLaaS-leverandører, inkludert Amazon Web Services, mens medlemskapsslutninger angriper (MIA), som opererer under lignende begrensninger, potensielt kan få konfidensiell medisinsk informasjon; i tillegg kan Attribution Inference Attacks (AIAs). gjenopprette sensitive data fra API-utgang.
Avslørende ansikter
For den nye artikkelen har forskerne konsentrert seg om et modellinversjonsangrep designet for å få en identitet fra en undergruppe av ansiktsfølelsesdata som ikke burde være i stand til å avsløre denne informasjonen.
Målet med systemet var å assosiere bilder funnet i naturen (enten lagt ut tilfeldig på internett eller i et potensielt datainnbrudd) med deres inkludering i datasettene som underbygger en maskinlæringsalgoritme.
Forskerne trente en inversjonsangrepsmodell som var i stand til å rekonstruere det bidragende bildet fra den anonymiserte API-utgangen, uten spesiell tilgang til den originale arkitekturen. Tidligere arbeid på dette feltet har konsentrert seg om systemer der identifikasjon (beskytte eller avsløre) var målet for både målsystemet og angrepssystemet; i dette tilfellet er rammeverket designet for å utnytte utdataene fra ett domene og bruke det på et annet domene.
A transponert convolutional neural network (CNN) ble brukt til å forutsi et "originalt" kildeansikt basert på målprediksjonsvektoren (saliency map) for et følelsesgjenkjenningssystem, ved å bruke en U-Net arkitektur for å forbedre ytelsen til ansiktsrekonstruksjon.
Testing
Ved testing av systemet brukte forskerne det mot tre datasett: iCV-MEFED ansiktsuttrykk; KjendisA, Og MNIST håndskrevne sifre. For å imøtekomme modellstørrelsen som brukes av forskerne, ble størrelsen på de tre datasettene endret til henholdsvis 128×128, 265×256 og 32×32 piksler. 50 % av hvert sett ble brukt som treningsdata, og den andre halvparten ble brukt som angrepsdatasett for å trene antagonistmodellene.
Hvert datasett hadde forskjellige målmodeller, og hvert angrepsnettverk ble skalert til begrensningene til forklaringene som lå til grunn for prosessen, i stedet for å bruke dypere nevrale modeller hvis kompleksitet ville overstige generaliseringen av forklaringene.
XAI-forklaringstypene som ble brukt til å drive forsøkene inkludert Gradientforklaring, Gradientinngang, Grad-CAM og lagmessig relevansutbredelse (LRP). Forskerne evaluerte også flere forklaringer på tvers av eksperimentene.
Beregningene for testen ble pikselvis likhet evaluert av Gjennomsnittlig kvadratfeil (MSE); Bildelikhet (SSIM), en perseptuelt basert likhetsindeks; angrepsnøyaktighet, bestemt av om en klassifikator kan re-merke et rekonstruert bilde; og angrepsinnbyggingslikhet, som sammenligner funksjonsinnbyggingen av kjente kildedata mot rekonstruerte data.
Re-identifikasjon ble oppnådd, med varierende nivåer i henhold til oppgaven og datasettene, på tvers av alle settene. Videre fant forskerne at ved å lage en surrogatmålmodell (som de naturligvis hadde full kontroll over), var det fortsatt mulig å oppnå re-identifikasjon av data fra eksterne, 'lukkede' modeller, basert på kjente XAI-prinsipper.
Forskerne fant at de mest nøyaktige resultatene ble oppnådd ved aktiveringsbaserte (saliency map) forklaringer, som lekket mer PII enn sensitivitetsbaserte (gradient) tilnærminger.
I fremtidig arbeid har teamet til hensikt å inkorporere forskjellige typer XAI-forklaringer i nye angrep, som f.eks. funksjonsvisualiseringer og konseptaktiveringsvektorer.