Connect with us

Er der en klar løsning på de privatrisici, som genereret AI udgør?

Tankeledere

Er der en klar løsning på de privatrisici, som genereret AI udgør?

mm

De privatrisici, som genereret AI udgør, er meget virkelige. Fra øget overvågning og eksponering til mere effektive phishing- og vishing-kampagner end nogensinde før, underminerer genereret AI privatlivet i stor stil, uden diskrimination, samtidig med at det giver dårlige aktører, enten kriminelle, statsstøttede eller regeringsstøttede, de værktøjer, de behøver for at målrette enkeltpersoner og grupper.

Den klaraste løsning på dette problem involverer, at forbrugere og brugere kollektivt vender ryggen til AI-hysteriet, kræver gennemsigtighed fra dem, der udvikler eller implementerer såkaldte AI-funktioner, og effektiv regulering fra de regeringsorganer, der overvåger deres operationer. Selv om det er værd at stræbe efter, er det ikke sandsynligt, at det sker i nær fremtid.

Hvad der er tilbage, er rimelige, selv om nødvendigvis ufuldstændige, tilgange til at mindske genereret AI’s privatrisici. Den langsigtede, sikre, men kedelige forudsigelse er, at jo mere uddannet offentligheden bliver om dataprivatliv i almindelighed, jo mindre privatrisici vil genereret AI udgøre ved masseanvendelsen af genereret AI.

Forstår vi alle begrebet genereret AI korrekt?

Hysteriet omkring AI er så ubetydeligt, at en undersøgelse af, hvad folk mener med genereret AI, knapt er nødvendig. Selvfølgelig repræsenterer ingen af disse “AI”-funktioner, funktioner og produkter faktisk eksempler på sand kunstig intelligens, hvad det så end ville se ud som. I stedet er de mest eksempler på machine learning (ML), dyb læring (DL) og store sprogmodeller (LLM).

Genereret AI, som navnet antyder, kan generere nyt indhold – enten tekst (herunder programmeringssprog), lyd (herunder musik og menneske-lignende stemmer) eller videoer (med lyd, dialog, klip og kameraændringer). Alt dette opnås ved at træne LLM til at identificere, matche og reproducere mønstre i menneskeskabt indhold.

Lad os tage ChatGPT som eksempel. Ligesom mange LLM er det trænet i tre brede faser:

  • For-træning: Under denne fase “fodres” LLM med tekstmateriale fra internettet, bøger, akademiske tidsskrifter og alt andet, der indeholder potentiel eller nyttig tekst.
  • Overvåget instruktionsfinjustering: Modellerne trænes til at svare mere koherent på instruktioner ved hjælp af højkvalitets instruktion-svar-par, typisk kildesorteret fra mennesker.
  • Forstærkning af læring fra menneskefeedback (RLHF): LLM som ChatGPT undergår ofte denne yderligere træningsfase, under hvilken interaktioner med menneskelige brugere bruges til at finjustere modellens tilpasning til typiske brugssager.

Alle tre faser af træningsprocessen indebærer data, enten massive lagre af forindsamlet data (som dem, der bruges til for-træning) eller data, der indsamles og bearbejdes næsten i realtid (som dem, der bruges i RLHF). Det er den data, der bærer den største del af de privatrisici, der stammer fra genereret AI.

Hvad er de privatrisici, som genereret AI udgør?

Privatlivet krænkes, når personlige oplysninger vedrørende en enkelt person (dataemnet) gjøres tilgængelige for andre personer eller enheder uden dataemnets samtykke. LLM er for-trænet og finjusteret på en ekstremt bred vifte af data, der kan og ofte inkluderer personlige data. Disse data er typisk skrabet fra offentligt tilgængelige kilder, men ikke altid.

Selv når disse data er hentet fra offentligt tilgængelige kilder, kan det at have dem samlet og behandlet af en LLM og derefter gøres næsten søgbart gennem LLM’s interface kunne argumenteres for at være en yderligere krænkelse af privatlivet.

Den forstærkning af læring fra menneskefeedback (RLHF) komplicerer tingene. Under denne træningsfase bruges virkelige interaktioner med menneskelige brugere til at iterativt korrigere og finjustere LLM’s svar. Dette betyder, at en brugers interaktioner med en LLM kan ses, deles og dissemineres af enhver med adgang til træningsdata.

I de fleste tilfælde er dette ikke en privatlivskrænkelse, da de fleste LLM-udviklere inkluderer privatlivspolitikker og servicevilkår, der kræver, at brugere samtykker, før de interagerer med LLM. Privatrisikoen ligger her i, at mange brugere ikke er klar over, at de har accepteret sådan en dataindsamling og brug. Sådanne brugere er sandsynligvis til at afsløre private og følsomme oplysninger under deres interaktioner med disse systemer, uden at være klar over, at disse interaktioner ikke er fortrolige eller private.

På denne måde kommer vi til de tre hovedmåder, hvorpå genereret AI udgør privatrisici:

  • Store lagre af for-træningsdata, der potentielt indeholder personlige oplysninger, er sårbare over for kompromis og eksfiltration.
  • Personlige oplysninger, der er inkluderet i for-træningsdata, kan lække til andre brugere af samme LLM gennem dens svar på forespørgsler og instruktioner.
  • Personlige og fortrolige oplysninger, der gives under interaktioner med LLM, ender med LLM’s medarbejdere og muligvis tredjepartsentreprenører, hvorfra de kan ses eller lække.

Disse er alle privatrisici for brugere, men sandsynligheden for, at personligt identificerbare oplysninger (PII) ender i forkerte hænder, synes stadig ret lav. Det er, i hvert fald, indtil dataforhandlere kommer ind i billedet. Disse virksomheder specialiserer sig i at opsnappe PII og indsamle, aggregere og disseminere, hvis ikke ligefrem transmittere, det.

Med PII og andre personlige data, der er blevet en slags vare, og dataforhandlerindustrien, der springer op for at profitere heraf, er enhver personlige data, der “kommer ud”, alt for sandsynligt til at blive samlet op af dataforhandlere og spredt vidt og bredt.

De privatrisici af genereret AI i kontekst

Før vi ser på de risici, genereret AI udgør for brugernes privatliv i konteksten af bestemte produkter, tjenester og virksomhedsparnerskaber, lad os træde tilbage og se på det fulde palette af genereret AI-risici. Skrivende for IAPP, Moraes og Previtali tog en data-dreven tilgang til at finjustere Solove’s 2006 “En taksonomi af privatliv”, reducerer de 16 privatrisici, der er beskrevet der, til 12 AI-specifikke privatrisici.

Disse er de 12 privatrisici, der er inkluderet i Moraes og Previtali’s reviderede taksonomi:

  • Overvågning: AI forværreler overvågningsrisici ved at øge omfanget og ubetydeligheden af personlige dataindsamling.
  • Identifikation: AI-teknologier muliggør automatiseret identitetslinkning på tværs af forskellige datakilder, hvilket øger risici relateret til personlig identitetsudsættelse.
  • Aggregat: AI kombinerer forskellige dele af data om en person for at træffe slutninger, hvilket skaber risici for privatlivskrænkelse.
  • Frenologi og fysiognomi: AI slutninger om personlighed eller sociale attributter fra fysisk karakter, en ny risikokategori, der ikke er i Solove’s taksonomi.
  • Sekundær brug: AI forværreler brug af personlige data til formål andre end dem, der oprindeligt var tiltænkt, gennem ombrug af data.
  • Udelukkelse: AI gør det værre for brugere at blive informeret eller have kontrol over, hvordan deres data bruges, gennem uigennemsigtige datapraksis.
  • Usikkerhed: AI’s datakrav og lagringspraksis risikerer dataleaks og utilbørlig adgang.
  • Eksponering: AI kan afsløre følsomme oplysninger, såsom gennem genereret AI-teknik.
  • Forvrængning: AI’s evne til at generere realistiske, men falske, indhold forhøjer spredningen af forkert eller misvisende information.
  • Afsløring: AI kan forårsage utilbørlig deling af data, når det slutninger yderligere følsomme oplysninger fra rådata.
  • Øget adgang: AI gør følsomme oplysninger mere tilgængelige for en bredere publikum end tiltænkt.
  • Krænkelse: AI-teknologier krænker personligt rum eller ensomhed, ofte gennem overvågningsforanstaltninger.

Dette gør for nogen ret alarmerende læsning. Det er vigtigt at bemærke, at denne taksonomi, til sin credit, tager i betragtning genereret AI’s tendens til at hallucinere – at generere og præsentere faktisk ukorrekte oplysninger med sikkerhed. Dette fænomen, selv om det sjældent afslører virkelige oplysninger, er også en privatrisiko. Disseminationen af forkert og misvisende information påvirker privatlivet på måder, der er mere subtile end i tilfældet af korrekte oplysninger, men det påvirker det alligevel.

Lad os bore ned i nogle konkrete eksempler på, hvordan disse privatrisici kommer i spil i konteksten af virkelige AI-produkter.

Direkte interaktioner med tekstbaserede genereret AI-systemer

Det enkleste tilfælde er det, der involverer en bruger, der interagerer direkte med et genereret AI-system, som ChatGPT, Midjourney eller Gemini. Brugernes interaktioner med mange af disse produkter er logget, gemt og brugt til RLHF (forstærkning af læring fra menneskefeedback), overvåget instruktionsfinjustering og endda for-træning af andre LLM.

En analyse af privatlivspolitikkerne for mange tjenester som disse afslører også andre data-delingsaktiviteter, der er underbygget af meget forskellige formål, som marketing og data-forhandling. Dette er en helt anden type privatrisiko, som genereret AI udgør: disse systemer kan karakteriseres som enorme data-kanaler, der indsamler data, der er givet af brugere, såvel som den, der genereres gennem deres interaktioner med den underliggende LLM.

Interaktioner med indbyggede genereret AI-systemer

Nogle brugere kan være i interaktion med genereret AI-grænseflader, der er indbygget i det produkt, de åbenbart bruger. Brugeren kan vide, at de bruger en “AI”-funktion, men de er mindre sandsynligt at vide, hvad det indebærer i forhold til data-privatrisici. Det, der kommer til syne med indbyggede systemer, er denne mangel på indsigt i, at personlige data, der deles med LLM, kunne ende i hænderne på udviklere og data-forhandlere.

Der er to grader af mangel på indsigt her: nogle brugere er klar over, at de interagerer med et genereret AI-produkt; og nogle tror, at de bruger det produkt, som genereret AI er bygget ind i eller adgang til. I begge tilfælde kan brugeren sandsynligvis have (og gjorde sandsynligvis) teknisk samtykket til vilkårene og betingelserne, der er knyttet til deres interaktioner med det indbyggede system.

Andre partnerskaber, der udsætter brugere for genereret AI-systemer

Nogle virksomheder indbygger eller inkluderer på anden måde genereret AI-grænseflader i deres software på måder, der er mindre åbenlyse, hvilket får brugere til at interagere – og dele information – med tredjeparter uden at være klar over det. Heldigvis er “AI” blevet så effektivt som salgsargument, at det er usandsynligt, at en virksomhed ville holde sådanne implementeringer hemmelige.

En anden fænomen i denne kontekst er den voksende modreaktion, som sådanne virksomheder har oplevet efter at have forsøgt at dele bruger- eller kunde-data med genereret AI-virksomheder som OpenAI. Datafjernelsesvirksomheden Optery, for eksempel, omstødte nyligt en beslutning om at dele brugerdata med OpenAI på en opt-out-basis, hvilket betyder, at brugere var tilmeldt programmet som standard.

Ikke blot var kunderne hurtige til at udtrykke deres utilfredshed, men virksomhedens datafjernelsesservice blev prompte fjernet fra Privacy Guides’ liste over anbefalede datafjernelsesservices. Til Opterys credit omstødte de hurtigt og gennemsigtigt deres beslutning, men det er den generelle modreaktion, der er betydelig her: folk er begyndt at værdsætte risiciene ved at dele data med “AI”-virksomheder.

Optery-sagen gør for et godt eksempel her, fordi dens brugere er, i en vis forstand, i frontlinjen af den voksende skepsis omkring såkaldte AI-implementeringer. Den type mennesker, der vælger en datafjernelsesservice, er også typisk dem, der vil være opmærksomme på ændringer i vilkår og privatlivspolitik.

Bevis for en voksende modreaktion mod genereret AI-data-brug

Privatlivsbevidste forbrugere har ikke været de eneste til at udtrykke bekymring over genereret AI-systemer og deres tilhørende data-privatrisici. På det lovgivningsmæssige niveau har EU’s Artificial Intelligence Act kategoriserer risici efter deres alvorlighed, med data-privatliv som det eksplisit eller implicit udtrykte kriterium for at tildele alvorlighed i de fleste tilfælde. Loven behandler også spørgsmålet om informeret samtykke, som vi diskuterede tidligere.

USA, der er notorisk langsom til at antage omfattende, føderal data-privatlovgivning, har i hvert fald nogle sikkerhedsforanstaltninger på plads takket være Executive Order 14110. Igen er data-privat bekymringer i forgrunden for formålet med ordren: “utilitarisk brug [af AI-teknologier] kunne forværrele samfunds-skader såsom svindel, diskrimination, bias og desinformation” – alle relateret til tilgængeligheden og disseminationen af personlige data.

Vendende tilbage til forbruger niveau, er det ikke kun særligt privatlivsbevidste forbrugere, der har reageret negativt på privatlivskrænkende genereret AI-implementeringer. Microsofts nu berømte “AI-drevne” Recall-funktion, der var bestemt for dens Windows 11-operativsystem, er et primært eksempel. Når omfanget af privatlivs- og sikkerhedsrisici blev afsløret, var modreaktionen stor nok til at få tech-giganten til at træde tilbage. Desværre synes Microsoft ikke at have opgivet idéen, men den initiale offentlige reaktion er alligevel opmuntrende.

Blivende hos Microsoft, har dets Copilot-program været bredt kritiseret for både data-privat og data-sikkerhedsproblemer. Da Copilot blev trænet på GitHub-data (primært kildekode), opstod kontrovers om Microsofts påståede krænkelser af programmørers og udvikleres software-licensafaler. Det er i tilfælde som dette, at grænserne mellem data-privat og immaterielle rettigheder begynder at blurre, hvilket giver den sidste en monetær værdi – noget, der ikke let kan gøres.

Måske det største tegn på, at AI er ved at blive et rødt flag i forbrugernes øjne, er den lunkne, hvis ikke ligefrem skeptiske, offentlige reaktion på Apples initial AI-lancering, specifikt i forhold til data-delingsaftaler med OpenAI.

De stykkevis løsninger

Der er skridt, lovgivere, udviklere og virksomheder kan tage for at mildne nogle af de risici, som genereret AI udgør. Disse er de specialiserede løsninger til bestemte aspekter af det overordnede problem, ingen af disse løsninger forventes at være nok, men alle sammen kan de gøre en reel forskel.

  • Data-minimering. At minimere mængden af data, der indsamles og gemmes, er et rimeligt mål, men det er direkte modstridigt med genereret AI-udvikleres ønske om træningsdata.
  • Gennemsigtighed. Givet den nuværende tilstand af ML, kan dette måske ikke engang være teknisk muligt i mange tilfælde. Indsigt i, hvilke data der bearbejdes, og hvordan, når der genereres en given output, er en måde at sikre privatliv i genereret AI-interaktioner på.
  • Anonymisering. Enhver PII, der ikke kan ekskluderes fra træningsdata (gennem data-minimering), skal anonymiseres. Problemet er, at mange populære anonymiserings- og pseudonymiseringsteknikker let kan besejres.
  • Bruger-samtykke. At kræve, at brugere samtykker til indsamling og deling af deres data, er afgørende, men for åbent for misbrug og for tilbøjelig til forbruger-længsel til at være effektivt. Det er informeret samtykke, der er nødvendigt her, og de fleste forbrugere, ordentligt informeret, ville ikke samtykke til sådan en data-deling, så incitamenterne er misjusteret.
  • Sikring af data under transmission og i hvile. En anden grundlæggende del af både data-privat og data-sikkerhed, beskyttelse af data gennem kryptografiske og andre midler kan altid gøres mere effektiv. Genereret AI-systemer har dog tendens til at lække data gennem deres grænseflader, hvilket gør dette kun en del af løsningen.
  • Gennemtvang af ophavsret og IP-lov i konteksten af såkaldt AI. ML kan fungere i en “sort boks”, hvilket gør det svært, hvis ikke umuligt, at spore, hvilke ophavsrets- og IP-materiale ender i hvilken genereret AI-output.
  • Revisoner. En anden afgørende sikkerhedsforanstaltning, der hindres af den sorte boks-natur af LLM og de genereret AI-systemer, de understøtter. Denne indre begrænsning kombineres med den lukkede kilde-natur af de fleste genereret AI-produkter, hvilket begrænser revisorer til kun dem, der udføres på udviklerens forespørgsel.

Alle disse tilgange til problemet er gyldige og nødvendige, men ingen er tilstrækkelig. De kræver alle lovgivningsmæssig støtte for at komme i betydning, hvilket betyder, at de er dømt til at være bagud i forhold til, hvordan dette dynamiske felt fortsætter med at udvikle sig.

Den klare løsning

Løsningen på de privatrisici, som genereret AI udgør, er hverken revolutionær eller spændende, men ført til sin logiske konklusion, kan dens resultater være både. Den klare løsning indebærer, at almindelige forbrugere bliver klar over værdien af deres data til virksomheder og uvurderligheden af data-privatliv for sig selv.

Forbrugere er kilderne og motorerne bag de private oplysninger, der driver, hvad der kaldes den moderne overvågningsøkonomi. Når en kritisk masse af forbrugere begynder at stoppe fluxen af private data ind i den offentlige sfære og begynder at kræve ansvarlighed fra de virksomheder, der handler med personlige data, vil systemet være tvunget til at korrigere sig selv.

Det opmuntrende ved genereret AI er, at den, til forskel fra nuværende reklame- og marketingmodeller, ikke behøver at involvere personlige oplysninger på noget stadium. For-træning og finjustering af data behøver ikke at inkludere PII eller andre personlige data, og brugere behøver ikke at afsløre det samme under deres interaktioner med genereret AI-systemer.

For at fjerne deres personlige oplysninger fra træningsdata kan mennesker gå direkte til kilden og fjerne deres profiler fra de forskellige dataforhandlere (herunder personsøgningssteder), der samler offentlige optegnelser, og bringer dem i omløb på det åbne marked. Personlige data-fjernelsesservices automatiserer processen, hvilket gør den hurtig og let. Selvfølgelig har fjernelse af personlige data fra disse virksomheders databases mange andre fordele og ingen ulemper.

Mennesker genererer også personlige data, når de interagerer med software, herunder genereret AI. For at stoppe fluxen af disse data vil brugere være nødt til at være mere opmærksomme på, at deres interaktioner bliver optaget, gennemgået, analyseret og delt. Deres muligheder for at undgå dette reduceres til at begrænse, hvad de afslører til online-systemer, og bruge på-enhed, åben kilde LLM, hvor det er muligt. Mennesker gør allerede et godt arbejde med at regulere, hvad de diskuterer offentligt – vi har bare brug for at udvide disse instinkter ind i området for genereret AI.

David Balaban er en computer sikkerhedsforsker med over 17 års erfaring i malwareanalyse og antivirus software evaluering. David driver MacSecurity.net og Privacy-PC.com projekter, der præsenterer ekspertråd på moderne informations sikkerhedsspørgsmål, herunder social engineering, malware, penetrationstest, trusselsintelligens, online privatliv og white hat hacking. David har en stærk baggrund i malware fejlfinding, med en seneste fokus på ransomware modforanstaltninger.