stub Forklarlig AI kan overgi konfidensielle data lettere - Unite.AI
Kontakt med oss

Cybersecurity

Forklarlig AI kan overgi konfidensielle data lettere

mm

Publisert

 on

Forskere fra National University of Singapore har konkludert med at jo mer forklarlig AI blir, jo lettere blir det å omgå viktige personvernfunksjoner i maskinlæringssystemer. De fant også at selv når en modell ikke er forklarlig, er det mulig å bruke forklaringer av lignende modeller for å "dekode" sensitive data i den ikke-forklarlige modellen.

De forskning, med tittelen Utnyttende forklaringer på modellinversjonsangrep, fremhever risikoen ved å bruke den "tilfeldige" opasiteten til måten nevrale nettverk fungerer på som om dette var en bydesign-sikkerhetsfunksjon – ikke minst fordi en bølge av nye globale initiativer, inkludert EUs utkast til AI-forskrifterHar karakteriserende forklarbar AI (XAI) som en forutsetning for eventuell normalisering av maskinlæring i samfunnet.

I forskningen er en faktisk identitet vellykket rekonstruert fra antatt anonyme data relatert til ansiktsuttrykk, gjennom utnyttelse av flere forklaringer av maskinlæringssystemet. Kilde: https://arxiv.org/pdf/2108.10800.pdf

I forskningen er en faktisk identitet vellykket rekonstruert fra antatt anonyme data relatert til ansiktsuttrykk, gjennom utnyttelse av flere forklaringer av maskinlæringssystemet. Kilde: https://arxiv.org/pdf/2108.10800.pdf

Forskerne kommenterer:

«Explainable Artificial Intelligence (XAI) gir mer informasjon for å hjelpe brukere til å forstå modellbeslutninger, men denne tilleggskunnskapen avslører ytterligere risikoer for personvernangrep. Derfor skader privatlivet å gi forklaring.'

Re-identifikasjon av private data

Deltakere i datasett for maskinlæring kan ha samtykket til å bli inkludert under forutsetning av anonymitet; i tilfelle av personlig identifiserbar informasjon (PII) som ender opp i AI-systemer via ad hoc-datainnsamling (for eksempel gjennom sosiale nettverk), kan deltakelse være teknisk lovlig, men anstrenger begrepet "samtykke".

Flere metoder har dukket opp de siste årene som har vist seg i stand til å avanonymisere PII fra tilsynelatende ugjennomsiktige dataflyter for maskinlæring. Modelluttak bruker API-tilgang (dvs. «black box»-tilgang, uten spesiell tilgjengelighet av kildekoden eller data) for å trekke ut PII selv fra høyskala MLaaS-leverandører, inkludert Amazon Web Services, mens medlemskapsslutninger angriper (MIA), som opererer under lignende begrensninger, potensielt kan konfidensiell medisinsk informasjon; i tillegg kan Attribution Inference Attacks (AIAs). gjenopprette sensitive data fra API-utgang.

Avslørende ansikter

For den nye artikkelen har forskerne konsentrert seg om et modellinversjonsangrep designet for å få en identitet fra en undergruppe av ansiktsfølelsesdata som ikke burde være i stand til å avsløre denne informasjonen.

Målet med systemet var å assosiere bilder funnet i naturen (enten lagt ut tilfeldig på internett eller i et potensielt datainnbrudd) med deres inkludering i datasettene som underbygger en maskinlæringsalgoritme.

Forskerne trente en inversjonsangrepsmodell som var i stand til å rekonstruere det bidragende bildet fra den anonymiserte API-utgangen, uten spesiell tilgang til den originale arkitekturen. Tidligere arbeid på dette feltet har konsentrert seg om systemer der identifikasjon (beskytte eller avsløre) var målet for både målsystemet og angrepssystemet; i dette tilfellet er rammeverket designet for å utnytte utdataene fra ett domene og bruke det på et annet domene.

A transponert convolutional neural network (CNN) ble brukt til å forutsi et "originalt" kildeansikt basert på målprediksjonsvektoren (saliency map) for et følelsesgjenkjenningssystem, ved å bruke en U-Net arkitektur for å forbedre ytelsen til ansiktsrekonstruksjon.

Re-identifikasjonssystemet er drevet og informert av forklarbar AI (XAI), der kunnskap om nevronaktivering, blant mange medvirkende offentlige XAI-fasetter, utnyttes til å rekonstruere arkitekturens interne maskinverk kun fra dens utdata, noe som muliggjør re-identifikasjon av bidragende datasettbilder.

Re-identifikasjonssystemet er drevet og informert av forklarbar AI (XAI), der kunnskap om nevronaktivering, blant mange medvirkende offentlige XAI-fasetter, utnyttes til å rekonstruere arkitekturens interne maskinverk kun fra dens utdata, noe som muliggjør re-identifikasjon av bidragende datasettbilder.

Testing

Ved testing av systemet brukte forskerne det mot tre datasett:  iCV-MEFED ansiktsuttrykk; KjendisA, Og MNIST håndskrevne sifre. For å imøtekomme modellstørrelsen som brukes av forskerne, ble størrelsen på de tre datasettene endret til henholdsvis 128×128, 265×256 og 32×32 piksler. 50 % av hvert sett ble brukt som treningsdata, og den andre halvparten ble brukt som angrepsdatasett for å trene antagonistmodellene.

Hvert datasett hadde forskjellige målmodeller, og hvert angrepsnettverk ble skalert til begrensningene til forklaringene som lå til grunn for prosessen, i stedet for å bruke dypere nevrale modeller hvis kompleksitet ville overstige generaliseringen av forklaringene.

XAI-forklaringstypene som ble brukt til å drive forsøkene inkludert Gradientforklaring, Gradientinngang, Grad-CAM og lagmessig relevansutbredelse (LRP). Forskerne evaluerte også flere forklaringer på tvers av eksperimentene.

Bilderekonstruksjon tilrettelagt av et XAI-kjennt inversjonsangrep på tvers av de tre datasettene, med identiske mål- og angrepsoppgaver.

Bilderekonstruksjon tilrettelagt av et XAI-kjennt inversjonsangrep på tvers av de tre datasettene, med identiske mål- og angrepsoppgaver.

Beregningene for testen ble pikselvis likhet evaluert av Gjennomsnittlig kvadratfeil (MSE); Bildelikhet (SSIM), en perseptuelt basert likhetsindeks; angrepsnøyaktighet, bestemt av om en klassifikator kan re-merke et rekonstruert bilde; og angrepsinnbyggingslikhet, som sammenligner funksjonsinnbyggingen av kjente kildedata mot rekonstruerte data.

Re-identifikasjon ble oppnådd, med varierende nivåer i henhold til oppgaven og datasettene, på tvers av alle settene. Videre fant forskerne at ved å lage en surrogatmålmodell (som de naturligvis hadde full kontroll over), var det fortsatt mulig å oppnå re-identifikasjon av data fra eksterne, 'lukkede' modeller, basert på kjente XAI-prinsipper.

Forskerne fant at de mest nøyaktige resultatene ble oppnådd ved aktiveringsbaserte (saliency map) forklaringer, som lekket mer PII enn sensitivitetsbaserte (gradient) tilnærminger.

I fremtidig arbeid har teamet til hensikt å inkorporere forskjellige typer XAI-forklaringer i nye angrep, som f.eks. funksjonsvisualiseringer og konseptaktiveringsvektorer.