Connect with us

Tankeledere

Er det en tydelig løsning på personvernsrisikoen som generativ AI utgjør?

mm

Personvernsrisikoen som generativ AI utgjør, er meget reel. Fra økt overvåking og eksponering til mer effektive phishing- og vishing-kampanjer enn noensinne, eroderer generativ AI personvernet massevis, uretfardig, samtidig som det gir skurkeaktører, enten kriminelle, statsstøttede eller regjeringsaktører, de verktøyene de trenger for å målrette enkeltpersoner og grupper.

Den tydeligste løsningen på dette problemet innebærer at forbrukere og brukere kollektivt vender ryggen til AI-hype, krever åpenhet fra de som utvikler eller implementerer såkalte AI-funksjoner, og effektiv regulering fra de regjeringsorganer som overvåker deres virksomhet. Selv om det er verdt å strebe etter, er det ikke sannsynlig at dette vil skje noen gang snart.

Hva som gjenstår, er fornuftige, selv om nødvendigvis ufullstendige, tilnærminger til å mildne generativ AI-personvernsrisiko. Den lange, sikre, men kjedelige forutsigelsen er at jo mer utdannet offentligheten blir om datapersonvern generelt, jo mindre personvernsrisiko vil generativ AI-tilpasning utgjøre.

Forstår vi alle konseptet med generativ AI riktig?

Hypeen rundt AI er så ubenyttet at en undersøkelse av hva folk mener med generativ AI er knapt nødvendig. Selvfølgelig representerer ingen av disse “AI”-funksjonene, funksjonalitetene og produktene faktisk eksempler på sant kunstig intelligens, hva det enn må se ut som. I stedet er de for det meste eksempler på maskinlæring (ML), dyplæring (DL) og store språkmodeller (LLM).

Generativ AI, som navnet antyder, kan generere nytt innhold – enten tekst (inkludert programmeringsspråk), lyd (inkludert musikk og menneske-lignende stemmer) eller videoer (med lyd, dialog, klipp og kameraendringer). All dette oppnås ved å trene LLM til å identifisere, matche og gjenskape mønster i menneske-generert innhold.

La oss ta ChatGPT som et eksempel. Liksom mange LLM, er det trent i tre brede faser:

  • For-trening: Under denne fasen, “mates” LLM med tekstmateriale fra internettet, bøker, akademiske tidsskrifter og alt annet som inneholder potensielt relevante eller nyttige tekst.
  • Overvåket instruksjonsfinjustering: Modeller er trent til å svare mer sammenhengende på instruksjoner ved hjelp av høykvalitets instruksjons-svar-par, vanligvis kildet fra mennesker.
  • Forsterkningslæring fra menneske-tilbakemelding (RLHF): LLM som ChatGPT gjennomgår ofte denne ekstra treningfasen, under hvilken interaksjoner med menneskelige brukere brukes til å finjustere modellens tilpasning til typiske bruksområder.

Alle tre treningfasene innebærer data, enten massive lagre av forhåndsgjorte data (som de som brukes i for-trening) eller data som samles inn og prosesseres nesten i sanntid (som de som brukes i RLHF). Det er denne datan som bærer den største delen av personvernsrisikoen som stammer fra generativ AI.

Hva er personvernsrisikoen som generativ AI utgjør?

Personvern blir krenket når personlig informasjon om en enkeltperson (dataemnet) blir tilgjengelig for andre enkeltpersoner eller enheter uten dataemnets samtykke. LLM er forhåndstrengt og finjustert på en ekstremt bred rekke av data som kan og ofte inkluderer personlig data. Denne datan hentes vanligvis fra offentlig tilgjengelige kilder, men ikke alltid.

Selv når denne datan hentes fra offentlig tilgjengelige kilder, kan det å ha den aggregert og prosessert av en LLM og deretter gjort søkbar gjennom LLMs grensesnitt, argumenteres for å være en ytterligere krenkelse av personvern.

Fasen forsterkningslæring fra menneske-tilbakemelding (RLHF) kompliserer tingene. Under denne treningfasen, brukes virkelige interaksjoner med menneskelige brukere til å iterativt korrigere og finjustere LLMs svar. Dette betyr at en brukers interaksjoner med en LLM kan sees, deles og spres av hvem som helst med tilgang til treningdata.

I de fleste tilfeller, er dette ikke en personvernskrenkelse, gitt at de fleste LLM-utviklere inkluderer personvernpolitikk og vilkår for tjenesten som krever at brukerne samtykker før de interagerer med LLM. Personvernsrisikoen her ligger i stedet i det faktum at mange brukere ikke er klar over at de har samtykket til slik datainnsamling og bruk. Slike brukere er sannsynligvis å avsløre private og sensitive informasjon under interaksjonene med disse systemene, uten å være klar over at disse interaksjonene ikke er konfidensielle eller private.

På denne måten kommer vi til de tre hovedmåtene generativ AI utgjør personvernsrisiko på:

  • Store lagre av forhåndstrengt data som potensielt inneholder personlig informasjon, er sårbare for å bli kompromittert og eksfiltrert.
  • Personlig informasjon inkludert i forhåndstrengt data kan lekkere til andre brukere av samme LLM gjennom dens svar på forespørsler og instruksjoner.
  • Personlig og konfidensiell informasjon gitt under interaksjon med LLM ender opp hos LLMs ansatte og muligens tredjeparts-entrepenører, fra hvor det kan sees eller lekkere.

Disse er alle risikoer for brukernes personvern, men sjansen for at personlig identifiserbar informasjon (PII) havner i feil hendene, ser ut til å være ganske lav. Det er, i hvert fall, til dataforhandlere kommer inn i bildet. Disse selskapene spesialiserer seg på å snuse opp PII og samle inn, aggregere og spre den, hvis ikke rett og slett kringkaste den.

Med PII og annen personlig data som har blitt en slags vare og dataforhandlerindustrien som springer opp for å profittere på dette, er enhver personlig data som kommer “der ute” alt for sannsynlig å bli samlet inn av dataforhandlere og spredt langt og bredt.

Personvernsrisikoen til generativ AI i sammenheng

Før vi ser på risikoen generativ AI utgjør for brukernes personvern i sammenheng med bestemte produkter, tjenester og bedriftssamarbeid, la oss ta et mer strukturert blikk på det fulle paletten av generativ AI-risiko. I en artikkel for IAPP, tok Moraes og Previtali en data-drevet tilnærmning til å finjustere Soloves 2006 “En taksonomi over personvern”, og reduserte de 16 personvernsrisikoene som ble beskrevet der, til 12 AI-spesifikke personvernsrisikoer.

Disse er de 12 personvernsrisikoene som er inkludert i Moraes og Previtalis reviderte taksonomi:

  • Overvåking: AI forverrer overvåkingsrisiko ved å øke omfanget og ubenyttetheten av personlig datainnsamling.
  • Identifisering: AI-teknologier muliggjør automatisert identitets kobling over ulike datakilder, og øker risikoene relatert til personlig identitet eksponering.
  • Aggregasjon: AI kombinerer ulike deler av data om en person for å gjøre antagelser, og skaper risikoer for personvernskrenkelse.
  • Frenologi og fysiognomi: AI antar personlighet eller sosiale attributter fra fysiske karakteristika, en ny risikokategori som ikke er i Soloves taksonomi.
  • Sekundær bruk: AI forverrer bruk av personlig data for andre formål enn det opprinnelige, gjennom ombruk av data.
  • Exklusjon: AI gjør det verre å ikke informere eller gi kontroll til brukerne over hvordan deres data brukes, gjennom uklare data-praksiser.
  • Usikkerhet: AI’s datakrav og lagringspraksiser risiko for datalekkasjer og uautorisert tilgang.
  • Eksponering: AI kan avsløre sensitive informasjon, som gjennom generativ AI-teknikker.
  • Forvrengning: AI’s evne til å generere realistisk, men feil informasjon, høyner spredningen av feil eller misvisende informasjon.
  • Apenbaring: AI kan forårsake uautorisert deling av data når det antar ytterligere sensitive informasjon fra rådata.
  • Økt tilgjengelighet: AI gjør sensitive informasjon mer tilgjengelig for en bredere publikum enn det som var ment.
  • Intrusjon: AI-teknologier invaderer personlig rom eller ensomhet, ofte gjennom overvåkingsmessige tiltak.

Dette gjør for en ganske alarmerende lesning. Det er viktig å merke seg at denne taksonomien, til sin ære, tar hensyn til generativ AI’s tendens til å hallusinere – å generere og presentere faktisk uriktige informasjon med sikkerhet. Dette fenomenet, selv om det sjelden avslører virkelig informasjon, er også en personvernsrisiko. Spredningen av feil og misvisende informasjon påvirker personvernet på måter som er mer subtile enn i tilfelle av nøyaktig informasjon, men det påvirker det likevel.

La oss gå ned til noen konkrete eksempler på hvordan disse personvernsrisikoene kommer til spill i sammenheng med faktiske AI-produkter.

Direkte interaksjoner med tekst-basert generativ AI-systemer

Det enkleste tilfellet er det som involverer en bruker som interagerer direkte med et generativt AI-system, som ChatGPT, Midjourney eller Gemini. Brukerens interaksjoner med mange av disse produktene blir logget, lagret og brukt for RLHF (forsterkningslæring fra menneske-tilbakemelding), overvåket instruksjonsfinjustering og sogar forhåndstrening av andre LLM.

En analyse av personvernpolitikken til mange tjenester som disse, avslører også andre data-delingsaktiviteter underbygget av svært forskjellige formål, som markedsføring og data-megling. Dette er en helt annen type personvernsrisiko som generativ AI utgjør: disse systemene kan karakteriseres som enorme data-kanaler, som samler inn data gitt av brukerne, samt data som genereres gjennom interaksjonene med den underliggende LLM.

Interaksjoner med innbygde generative AI-systemer

Noen brukere kan interagere med generative AI-grensesnitt som er innbygd i produktet de bruker. Brukeren kan vite at de bruker en “AI”-funksjon, men de er mindre sannsynlig å vite hva det innebærer i terms av personvernsrisiko. Hva som kommer til syne med innbygde systemer, er mangelen på forståelse av at personlig data delt med LLM kan havne i hendene på utviklere og dataforhandlere.

Det er to grader av manglende bevissthet her: noen brukere innser at de interagerer med et generativt AI-produkt; og noen tror at de bruker produktet som generativ AI er bygget inn i eller tilgjengelig gjennom. I begge tilfeller kan brukeren ha (og sannsynligvis har) teknisk samtykket til vilkårene og betingelsene forbundet med interaksjonene med det innbygde systemet.

Andre samarbeid som eksponerer brukere for generative AI-systemer

Noen selskaper innbygger eller på annen måte inkluderer generative AI-grensesnitt i sine programmer på måter som er mindre åpenbare, og lar brukerne interagere – og dele informasjon – med tredjeparter uten å være klar over det. Heldigvis har “AI” blitt så effektivt som salgsargument at det er usannsynlig at et selskap vil holde slike implementeringer hemmelige.

En annen fenomen i denne sammenhengen er den voksende motreaksjonen som slike selskaper har opplevd etter å ha prøvd å dele bruker- eller kundedata med generative AI-selskaper som OpenAI. Datafjerningsselskapet Optery, for eksempel, gjorde nylig om på en beslutning om å dele brukerdata med OpenAI på et valg-bort-basis, noe som betyr at brukerne var medlemmer av programmet som standard.

Ikke bare var kundene rask til å uttrykke sin skuffelse, men selskapets datafjerningstjeneste ble også umiddelbart fjernet fra Privacy Guides’ liste over anbefalte datafjerningstjenester. Til Opterys ære, gjorde de raskt og åpent om på beslutningen, men det generelle motreaksjonen er likevel betydelig: folk begynner å forstå risikoen med å dele data med “AI”-selskaper.

Optery-saken gjør for et godt eksempel her, fordi deres brukere er, i en viss forstand, på forkanten av den voksende skepsisen omkring såkalte AI-implementeringer. De typene mennesker som velger en datafjerningstjeneste, er også, vanligvis, de som vil merke seg endringer i vilkår for tjenesten og personvernpolitikk.

Bevis på en voksende motreaksjon mot generativ AI-data-bruk

Personvernsbevisste forbrukere har ikke vært de eneste som har reist bekymringer om generativ AI-systemer og deres assosierte personvernsrisiko. På det lovgivende nivå, har EUs Artificial Intelligence Act kategorisert risikoer etter alvorlighetsgrad, med personvern som det eksplisitte eller implisitte kriteriet for å tillegge alvorlighetsgrad i de fleste tilfeller. Loven adresse også problemene med informert samtykke vi diskuterte tidligere.

USA, som er notorisk langsom til å adoptere omfattende, føderale personvernslovgivning, har i hvert fall noen vegger på plass takket være Executive Order 14110. Igjen, er personvern bekymringer i forgrunnen av formålene gitt for ordren: “iransvarlig bruk [av AI-teknologier] kunne forverre samfunns-skader som svindel, diskriminering, bias og desinformasjon” – alle relatert til tilgjengeligheten og spredningen av personlig data.

Ved å returnere til forbrukernivået, er det ikke bare spesielt personvernsbevisste forbrukere som har reagert mot personvernsinvasiv generativ AI-implementering. Microsofts nå økende “AI-drevne” Recall-funksjon, bestemt for sin Windows 11-operativsystem, er et primært eksempel. Når omfanget av personvern- og sikkerhetsrisiko ble avdekket, var motreaksjonen stor nok til å få tech-giganten til å gå tilbake. Uheldigvis, ser det ut til at Microsoft ikke har gitt opp på ideen, men den initielle offentlige reaksjonen er likevel oppmuntrende.

Ved å bli hos Microsoft, har deres Copilot-program blitt bredt kritisert for både personvern og datasikkerhetsproblemer. Da Copilot ble trent på GitHub-data (hovedsakelig kildekode), oppstod også kontrovers om Microsofts påståtte brudd på programmeres og utvikleres programvarelisensavtaler. Det er i slike tilfeller at grensene mellom personvern og immaterielle rettigheter begynner å bli uklare, og gir personvernet en monetær verdi – noe som ikke er lett å gjøre.

Kanskje det største tegnet på at AI blir et rødt flagg i forbrukernes øyne, er den lunken, om ikke åpenbart skeptiske, offentlige responsen Apple fikk til sin initielle AI-lansering, spesielt i forhold til data-delingsavtaler med OpenAI.

De stykkevis løsningene

Det finnes skritt lovgivere, utviklere og selskaper kan ta for å mildne noen av risikoen som generativ AI utgjør. Disse er de spesialiserte løsningene på bestemte aspekter av det overordnede problemet, ingen av disse løsningene forventes å være nok, men alle sammen, kunne gjøre en forskjell.

  • Data-minimering. Å minimere mengden data som samles inn og lagres, er et rimelig mål, men det er direkte motsatt av generativ AI-utvikleres ønske om treningdata.
  • Åpenhet. Gitt den nåværende tilstanden i ML, kan dette kanskje ikke engang være teknisk mulig i mange tilfeller. Innsikt i hva data som prosesseres og hvordan når generering av et gitt utgangspunkt, er en måte å sikre personvern i generativ AI-interaksjoner.
  • Anonymisering. Enhver PII som ikke kan ekskluderes fra treningdata (gjennom data-minimering) bør anonymiseres. Problemet er at mange populære anonymiserings- og pseudonymiseringsteknikker lett kan brytes.
  • Bruker-samtykke. Å kreve at brukerne samtykker til innsamling og deling av deres data, er essensielt, men for åpen til misbruk og for utsatt for forbruker-lathet til å være effektivt. Det er informert samtykke som trengs her, og de fleste forbrukerne, ordentlig informert, ville ikke samtykke til slik data-deling, så incitamentene er misjustert.
  • Sikre data under overføring og i ro. En annen grunnleggende del av både datapersonvern og datasikkerhet, å beskytte data gjennom kryptografiske og andre midler, kan alltid gjøres mer effektivt. Likevel, har generative AI-systemer tendens til å lekke data gjennom grensesnittet, noe som gjør dette bare en del av løsningen.
  • Å påtvinge opphavsrett og IP-lov i sammenheng med såkalt AI. ML kan operere i en “black box”, noe som gjør det vanskelig, om ikke umulig, å spore hva opphavsrettslig eller IP-materiale havner i hvilket generativt AI-utgangspunkt.
  • Revisjoner. En annen kritisk skralle-måte som hindres av den lukkede natur til LLM og de generative AI-systemene de støtter, noe som begrenser revisjoner til bare de som utføres på utviklerens eget initiativ.

Alle disse tilnærmingene til problemet er gyldige og nødvendige, men ingen er tilstrekkelig. De krever alle lovgivende støtte for å komme inn i mening, noe som betyr at de er dømt til å være etter tidene mens dette dynamiske feltet fortsetter å utvikle seg.

Den tydelige løsningen

Løsningen på personvernsrisikoen som generativ AI utgjør, er hverken revolusjonær eller spennende, men tatt til sin logiske konklusjon, kunne resultatene være både. Den tydelige løsningen innebærer at hverdagsforbrukere blir klar over verdien av deres data til selskaper og uvurderligheten av datapersonvern til seg selv.

Forbrukere er kildene og motorene bak den private informasjonen som driver det som kalles den moderne overvåkingsøkonomien. Når en kritisk masse av forbrukere begynner å stanse strømmen av privat data inn i det offentlige rommet og begynner å kreve ansvar fra selskapene som handler med personlig data, vil systemet måtte justere seg selv.

Det oppmuntrende med generativ AI er at, i motsetning til nåværende reklame- og markedsføringsmodeller, trenger det ikke å involvere personlig informasjon på noen stadium. Forhåndstrening og finjustering av data trenger ikke å inkludere PII eller annen personlig data, og brukerne trenger ikke å avsløre det samme under interaksjonene med generative AI-systemer.

For å fjerne deres personlig informasjon fra treningdata, kan folk gå rett til kilden og fjerne deres profiler fra de ulike dataforhandlerne (inkludert personlig søk-sider) som samler inn offentlige poster, og bringer dem inn i omløp på det åpne markedet. Personlig data-fjerningstjenester automatiserer prosessen, og gjør det raskt og enkelt. Selvfølgelig, å fjerne personlig data fra disse selskapenes databaser, har mange andre fordeler og ingen ulemper.

Folk genererer også personlig data når de interagerer med programvare, inkludert generativ AI. For å stanse strømmen av denne datan, må brukerne være mer bevisste på at deres interaksjoner blir logget, gjennomgått, analysert og delt. Deres valg for å unngå dette, går ned til å begrense hva de avslører til nettbaserte systemer, og å bruke på-enhet, åpen kildekode LLM hvor mulig. Folk, som helhet, gjør allerede en god jobb med å regulere hva de diskuterer offentlig – vi bare trenger å utvide disse instinktene inn i generativ AI-området.

David Balaban er en dataskjerhetforsker med over 17 års erfaring i analyse av skadelig programvare og vurdering av antivirusprogramvare. David driver MacSecurity.net og Privacy-PC.com prosjekter som presenterer ekspertuttalelser om samtidsinformasjonssikkerhetsspørsmål, inkludert sosial manipulasjon, skadelig programvare, penetreringstesting, trusselintelligens, nettverkprivatliv og hvit hatt-hacking. David har en sterk bakgrunn i feilsøking av skadelig programvare, med en ny fokus på mottiltak mot løsepenger-angrep.