Connect with us

Thought leaders

Bestaat er een duidelijke oplossing voor de privacyrisico’s van generatieve AI?

mm

De privacyrisico’s van generatieve AI zijn heel echt. Van verhoogde surveillance en blootstelling tot effectievere phishing- en vishing-campagnes dan ooit, ondermijnt generatieve AI de privacy op grote schaal, ondiscrimineerd, en biedt slechte actoren, of het nu criminele, door de staat gesponsorde of door de overheid gaat, de middelen die ze nodig hebben om individuen en groepen te targeten.

De meest voor de hand liggende oplossing voor dit probleem bestaat uit consumenten en gebruikers die collectief de rug toekeren aan de hype rond AI, transparantie eisen van degenen die zogenaamde AI-functies ontwikkelen of implementeren, en effectieve regulering van de overheidsinstanties die hun activiteiten controleren. Hoewel het de moeite waard is om dit na te streven, is het niet waarschijnlijk dat dit binnenkort zal gebeuren.

Wat overblijft, zijn redelijke, zelfs noodzakelijkerwijs onvolledige, benaderingen om de privacyrisico’s van generatieve AI te mitigeren. De langetermijnvoorspelling, die zeker en saai is, is dat hoe meer het publiek wordt geïnformeerd over gegevensbescherming in het algemeen, hoe kleiner de privacyrisico’s van de massale adoptie van generatieve AI zullen zijn.

Hebben we allemaal het concept van generatieve AI goed begrepen?

De hype rond AI is zo alomtegenwoordig dat een enquête naar wat mensen bedoelen met generatieve AI nauwelijks nodig is. Natuurlijk vertegenwoordigen geen van deze “AI”-functies, -functionaliteiten en -producten daadwerkelijk voorbeelden van echte kunstmatige intelligentie, wat dat ook mag zijn. In plaats daarvan zijn het meestal voorbeelden van machine learning (ML), deep learning (DL) en large language models (LLM’s).

Generatieve AI, zoals de naam al aangeeft, kan nieuwe inhoud genereren – of het nu gaat om tekst (inclusief programmeertalen), audio (inclusief muziek en mensachtige stemmen) of video’s (met geluid, dialoog, cuts en camerawisselingen). Alles wordt bereikt door LLM’s te trainen om patronen in door mensen gegenereerde inhoud te identificeren, te matchen en te reproduceren.

Laten we ChatGPT als voorbeeld nemen. Net als veel LLM’s, wordt het getraind in drie brede fasen:

  • Pre-training: Tijdens deze fase wordt de LLM “gevoed” met tekstuele materiaal van het internet, boeken, academische tijdschriften en alles wat potentieel relevante of bruikbare tekst bevat.
  • Supervised instruction fine-tuning: Modellen worden getraind om meer coherent te reageren op instructies met behulp van hoge kwaliteit instructie-antwoordparen, meestal afkomstig van mensen.
  • Reinforcement learning from human feedback (RLHF): LLM’s zoals ChatGPT ondergaan vaak deze extra trainingsfase, waarbij interacties met menselijke gebruikers worden gebruikt om het model te verfijnen en te laten aansluiten bij typische gebruikscases.

Alle drie de trainingsfasen omvatten gegevens, of het nu gaat om enorme hoeveelheden vooraf verzamelde gegevens (zoals die gebruikt worden in de pre-training) of gegevens die in bijna realtime worden verzameld en verwerkt (zoals die gebruikt worden in RLHF). Het zijn die gegevens die het leeuwendeel van de privacyrisico’s van generatieve AI met zich meebrengen.

Wat zijn de privacyrisico’s van generatieve AI?

Privacy wordt geschonden wanneer persoonlijke informatie over een individu (de gegevensonderwerp) beschikbaar wordt gesteld aan andere individuen of entiteiten zonder toestemming van de gegevensonderwerp. LLM’s worden getraind en gefinetuned op een extreem breed scala aan gegevens die persoonlijke gegevens kunnen en vaak ook bevatten. Deze gegevens worden meestal verzameld uit openbaar beschikbare bronnen, maar niet altijd.

Zelfs wanneer die gegevens uit openbaar beschikbare bronnen worden gehaald, kan het feit dat ze worden geaggregeerd en verwerkt door een LLM en vervolgens feitelijk door de interface van de LLM worden gemaakt, worden beschouwd als een verdere schending van de privacy.

De reinforcement learning from human feedback (RLHF)-fase compliceert de zaken. Tijdens deze trainingsfase worden echte interacties met menselijke gebruikers gebruikt om de reacties van de LLM iteratief te corrigeren en te verfijnen. Dit betekent dat een gebruiker interacties met een LLM kunnen worden bekeken, gedeeld en verspreid door iedereen met toegang tot de trainingsgegevens.

In de meeste gevallen is dit geen schending van de privacy, aangezien de meeste LLM-ontwikkelaars privacybeleid en voorwaarden hebben die gebruikers toestemming moeten geven voordat ze interactie hebben met de LLM. Het privacyrisico ligt hier eerder in het feit dat veel gebruikers zich niet bewust zijn van het feit dat ze hebben ingestemd met dergelijke gegevensverzameling en -gebruik. Dergelijke gebruikers zijn waarschijnlijk om privé- en gevoelige informatie te onthullen tijdens hun interacties met deze systemen, zonder te beseffen dat deze interacties noch vertrouwelijk noch privé zijn.

Op deze manier komen we uit bij de drie belangrijkste manieren waarop generatieve AI privacyrisico’s met zich meebrengt:

  • Grote hoeveelheden pre-trainingsgegevens die potentieel persoonlijke informatie bevatten, zijn kwetsbaar voor compromissen en exfiltratie.
  • Persoonlijke informatie die is opgenomen in pre-trainingsgegevens, kan worden gelekt naar andere gebruikers van dezelfde LLM via zijn reacties op queries en instructies.
  • Persoonlijke en vertrouwelijke informatie die tijdens interacties met LLM’s wordt verstrekt, belandt bij de werknemers van de LLM’s en mogelijk bij derde partijen, van waaruit het kan worden bekeken of gelekt.

Dit zijn allemaal risico’s voor de privacy van gebruikers, maar de kans dat persoonlijk identificeerbare informatie (PII) in verkeerde handen terechtkomt, lijkt nog steeds vrij laag. Dat is, tenminste, totdat gegevensbrokers in beeld komen. Deze bedrijven specialiseren zich in het opsporen van PII en het verzamelen, aggregeren en verspreiden, zo niet rechtstreeks uitzenden, ervan.

Met PII en andere persoonlijke gegevens die een soort handelswaar zijn geworden en de gegevensbrokerindustrie die is ontstaan om daarvan te profiteren, is het waarschijnlijk dat elke persoonlijke gegevens die “daarbuiten” komen, worden opgepikt door gegevensbrokers en wijd en zijd worden verspreid.

De privacyrisico’s van generatieve AI in context

Voordat we kijken naar de risico’s die generatieve AI oplevert voor de privacy van gebruikers in de context van specifieke producten, diensten en corporate partnerships, laten we een stap terug doen en een meer gestructureerde blik werpen op het volledige palet van generatieve AI-risico’s. In een artikel voor de IAPP, namen Moraes en Previtali een gegevensgedreven benadering om Solove’s “A Taxonomy of Privacy” uit 2006 te verfijnen, waarbij de 16 privacyrisico’s die daarin werden beschreven, werden teruggebracht tot 12 AI-specifieke privacyrisico’s.

Dit zijn de 12 privacyrisico’s die zijn opgenomen in de herziene taxonomie van Moraes en Previtali:

  • Surveillance: AI verergert surveillance-risico’s door de omvang en alomtegenwoordigheid van persoonlijke gegevensverzameling te vergroten.
  • Identificatie: AI-technologieën maken automatische identiteitskoppeling mogelijk over verschillende gegevensbronnen, waardoor risico’s in verband met persoonlijke identiteitsblootstelling toenemen.
  • Aggregatie: AI combineert verschillende stukken informatie over een persoon om conclusies te trekken, waardoor risico’s van privacyschending ontstaan.
  • Frenologie en fysionomie: AI leidt persoonlijkheid of sociale kenmerken af uit fysieke kenmerken, een nieuwe risicocategorie die niet in Solove’s taxonomie voorkomt.
  • Secundair gebruik: AI verergert het gebruik van persoonlijke gegevens voor andere doeleinden dan oorspronkelijk bedoeld door gegevens opnieuw te gebruiken.
  • Uitsluiting: AI maakt het falen om gebruikers te informeren of controle te geven over hoe hun gegevens worden gebruikt, erger door ondoorzichtige gegevenspraktijken.
  • Onveiligheid: AI’s gegevensvereisten en opslagpraktijken lopen het risico op gegevenslekkages en ongeoorloofde toegang.
  • Blootstelling: AI kan gevoelige informatie onthullen, zoals via generatieve AI-technieken.
  • Vertekening: AI’s mogelijkheid om realistische maar valse inhoud te genereren, verhoogt de verspreiding van valse of misleidende informatie.
  • Openbaarmaking: AI kan ongepaste deling van gegevens veroorzaken wanneer het aanvullende gevoelige informatie afleidt uit ruwe gegevens.
  • Verhoogde toegankelijkheid: AI maakt gevoelige informatie toegankelijker voor een breder publiek dan de bedoeling was.
  • Inbreuk: AI-technologieën schenden de persoonlijke levenssfeer of eenzaamheid, vaak door surveillancemaatregelen.

Dit maakt voor een vrij alarmerende lectuur. Het is belangrijk op te merken dat deze taxonomie, in zijn voordeel, rekening houdt met de neiging van generatieve AI om hallucinaties te produceren – om feitelijk onjuiste informatie te genereren en met vertrouwen te presenteren. Dit fenomeen, hoewel het zelden echte informatie onthult, is ook een privacyrisico. De verspreiding van valse en misleidende informatie beïnvloedt de privacy van het onderwerp op manieren die subtieler zijn dan in het geval van accurate informatie, maar het beïnvloedt het niettemin.

Laten we naar enkele concrete voorbeelden kijken van hoe deze privacyrisico’s in de context van echte AI-producten spelen.

Directe interacties met tekstgebaseerde generatieve AI-systemen

Het eenvoudigste geval is dat waarin een gebruiker rechtstreeks interactie heeft met een generatieve AI-systeem, zoals ChatGPT, Midjourney of Gemini. De interacties van de gebruiker met veel van deze producten worden gelogd, opgeslagen en gebruikt voor RLHF (reinforcement learning from human feedback), supervised instruction fine-tuning en zelfs de pre-training van andere LLM’s.

Een analyse van de privacybeleid van veel van deze diensten onthult ook andere gegevensdelingsactiviteiten die worden ondersteund door heel verschillende doeleinden, zoals marketing en gegevensbrokerage. Dit is een heel ander type privacyrisico dat wordt veroorzaakt door generatieve AI: deze systemen kunnen worden gekarakteriseerd als enorme gegevenskanalen, die gegevens verzamelen die door gebruikers worden verstrekt, evenals die welke worden gegenereerd door hun interacties met de onderliggende LLM.

Interacties met ingebedde generatieve AI-systemen

Sommige gebruikers kunnen interactie hebben met generatieve AI-interfaces die zijn ingebed in het product dat ze ogenschijnlijk gebruiken. De gebruiker kan weten dat hij een “AI”-functie gebruikt, maar hij is minder waarschijnlijk om te weten wat dat inhoudt in termen van gegevensprivacysrisico’s. Wat naar voren komt bij ingebedde systemen, is dit gebrek aan waardering voor het feit dat persoonlijke gegevens die worden gedeeld met de LLM, in handen kunnen komen van ontwikkelaars en gegevensbrokers.

Er zijn twee graden van gebrek aan bewustzijn hier: sommige gebruikers realiseren zich dat ze interactie hebben met een generatieve AI-product; en sommigen geloven dat ze een product gebruiken waarin de generatieve AI is ingebed of waartoe toegang wordt verkregen. In beide gevallen kan de gebruiker technisch gezien hebben ingestemd met de voorwaarden en condities die verbonden zijn aan hun interacties met het ingebedde systeem.

Andere partnerships die gebruikers blootstellen aan generatieve AI-systemen

Sommige bedrijven embedden of voegen anderszins generatieve AI-interfaces toe aan hun software op manieren die minder duidelijk zijn, waardoor gebruikers zonder het te beseffen informatie delen met derden. Gelukkig is “AI” zo’n effectief verkoopargument geworden dat het onwaarschijnlijk is dat een bedrijf dergelijke implementaties geheim zou houden.

Een ander fenomeen in deze context is de groeiende backlash die dergelijke bedrijven hebben ervaren nadat ze hebben geprobeerd om gebruikers- of klantgegevens te delen met generatieve AI-bedrijven zoals OpenAI. Het gegevensverwijderingsbedrijf Optery, bijvoorbeeld, keerde onlangs een besluit om om gebruikersgegevens te delen met OpenAI op basis van opt-out, wat betekent dat gebruikers standaard waren ingeschreven voor het programma.

Niet alleen waren klanten snel om hun teleurstelling te uiten, maar het gegevensverwijderingsdienst van het bedrijf werd prompt van de lijst van aanbevolen gegevensverwijderingsdiensten van Privacy Guides verwijderd. Optery keerde zijn besluit snel en transparant, maar de algemene backlash is hier significant: mensen beginnen de risico’s van het delen van gegevens met “AI”-bedrijven te waarderen.

De Optery-zaak is een goed voorbeeld hier, omdat zijn gebruikers in zekere zin aan de voorhoede staan van de groeiende scepsis rondom zogenaamde AI-implementaties. Het soort mensen dat kiest voor een gegevensverwijderingsdienst, zijn ook typisch diegenen die aandacht besteden aan wijzigingen in de voorwaarden en privacybeleid.

Bewijs van een groeiende backlash tegen generatieve AI-gegevensgebruik

Privacybewuste consumenten zijn niet de enigen die bezorgdheid hebben geuit over generatieve AI-systemen en de daarmee verbonden gegevensprivacysrisico’s. Op het wetgevende niveau categoriseert de EU’s Artificial Intelligence Act risico’s naar gelang van hun ernst, met gegevensbescherming als de expliciet of impliciet genoemde criterion voor het toekennen van ernst in de meeste gevallen. De wet adresseert ook de kwesties van geïnformeerde toestemming die we eerder bespraken.

De VS, die notoir langzaam zijn om alomvattende, federale gegevensbeschermingswetgeving aan te nemen, hebben tenminste enkele beschermingsmaatregelen dankzij Executive Order 14110. Opnieuw staan gegevensbeschermingszorgen centraal in de doelstellingen van de Order: “irresponsible use [of AI technologies] could exacerbate societal harms such as fraud, discrimination, bias, and disinformation” – allemaal gerelateerd aan de beschikbaarheid en verspreiding van persoonlijke gegevens.

Terugkerend naar het consumentenniveau, is het niet alleen bijzonder privacybewuste consumenten die zijn teruggedraaid van privacy-invasieve generatieve AI-implementaties. Microsoft’s inmiddels beruchte “AI-geactiveerde” Recall-functie, bestemd voor zijn Windows 11-besturingssysteem, is een voorbeeld. Zodra de omvang van de privacy- en beveiligingsrisico’s werd onthuld, was de backlash groot genoeg om de techgigant te laten terugpeddelen. Helaas lijkt Microsoft niet te hebben opgegeven van het idee, maar de initiële publieke reactie is niettemin bemoedigend.

Blijvend bij Microsoft, is zijn Copilot-programma breed bekritiseerd voor zowel gegevensbescherming als gegevensbeveiligingsproblemen. Aangezien Copilot werd getraind op GitHub-gegevens (voornamelijk broncode), ontstond er ook controverse over Microsoft’s vermeende schendingen van softwarelicentieovereenkomsten van programmeurs en ontwikkelaars. Het is in gevallen zoals deze dat de lijnen tussen gegevensbescherming en intellectuele eigendomsrechten beginnen te vervagen, waardoor de laatste een monetaire waarde krijgt – iets dat niet gemakkelijk kan worden gedaan.

Misschien is de grootste indicatie dat AI een rode vlag wordt in de ogen van consumenten de lauwe, zo niet uitgesproken negatieve, publieke reactie die Apple kreeg op zijn initiële AI-lancering, met name met betrekking tot gegevensdelingsovereenkomsten met OpenAI.

De puzzelstukjesoplossingen

Er zijn stappen die wetgevers, ontwikkelaars en bedrijven kunnen nemen om enkele van de risico’s van generatieve AI te verlichten. Dit zijn de gespecialiseerde oplossingen voor specifieke aspecten van het overkoepelende probleem, geen van deze oplossingen wordt verwacht voldoende te zijn, maar allemaal, samen, kunnen ze een echt verschil maken.

  • Gegevensminimisatie. Het minimaliseren van de hoeveelheid verzamelde en opgeslagen gegevens is een redelijk doel, maar het staat rechtstreeks tegenover de wens van generatieve AI-ontwikkelaars om trainingsgegevens te verzamelen.
  • Transparantie. Gezien de huidige stand van de techniek in ML, kan dit in veel gevallen niet eens technisch haalbaar zijn. Inzicht in welke gegevens worden verwerkt en hoe, wanneer een bepaalde output wordt gegenereerd, is een manier om privacy te garanderen in interacties met generatieve AI.
  • Anonimisatie. Elk PII dat niet kan worden uitgesloten van trainingsgegevens (via gegevensminimisatie) moet worden geanonimiseerd. Het probleem is dat veel populaire anonimisatie- en pseudonimisatietechnieken gemakkelijk te verslaan zijn.
  • Gebruikers-toestemming. Het vereisen van gebruikers-toestemming voor de verzameling en deling van hun gegevens is essentieel, maar te open voor misbruik en te vatbaar voor consumentenluiheid om effectief te zijn. Het is geïnformeerde toestemming die hier nodig is, en de meeste consumenten, goed geïnformeerd, zouden niet instemmen met dergelijke gegevensdeling, dus de incentives zijn misgealigneerd.
  • Beveiliging van gegevens in transit en in rust. Een andere basis van zowel gegevensbescherming als gegevensbeveiliging, het beschermen van gegevens via cryptografische en andere middelen kan altijd effectiever worden gemaakt. Generatieve AI-systemen hebben echter de neiging om gegevens te lekken via hun interfaces, waardoor dit slechts een deel van de oplossing is.
  • Afdwingen van auteursrecht en IE-recht in de context van zogenaamde AI. ML kan opereren in een “black box”, waardoor het moeilijk, zo niet onmogelijk, is om te traceren welke auteursrechtelijk beschermde materialen en IE in welke generatieve AI-uitvoer terechtkomen.
  • Audits. Een andere cruciale guardrail-maatregel die wordt gefrustreerd door de black-box-natuur van LLM’s en de generatieve AI-systemen die ze ondersteunen. Deze inherente beperking wordt verergerd door de closed-source-natuur van de meeste generatieve AI-producten, waardoor audits beperkt zijn tot die welke worden uitgevoerd op het gemak van de ontwikkelaar.

Alle deze benaderingen van het probleem zijn geldig en noodzakelijk, maar geen van hen is voldoende. Ze allemaal vereisen wetgevende steun om enige invloed te hebben, wat betekent dat ze gedoemd zijn om achter te blijven bij de tijd terwijl dit dynamische veld blijft evolueren.

De duidelijke oplossing

De oplossing voor de privacyrisico’s van generatieve AI is noch revolutionair, noch spannend, maar als het tot zijn logische conclusie wordt genomen, kunnen de resultaten zowel het een als het ander zijn. De duidelijke oplossing bestaat uit alledaagse consumenten die zich bewust worden van de waarde van hun gegevens voor bedrijven en de onbetaalbare waarde van gegevensbescherming voor zichzelf.

Consumenten zijn de bronnen en motoren achter de privé-informatie die de moderne surveillancemaatschappij aandrijft. Zodra een kritische massa van consumenten begint om de stroom van privé-gegevens naar de openbare sfeer te stoppen en aansprakelijkheid begint te eisen van de bedrijven die handelen in persoonlijke gegevens, zal het systeem vanzelf moeten corrigeren.

Het bemoedigende aspect van generatieve AI is dat het, in tegenstelling tot huidige advertentie- en marketingmodellen, niet noodzakelijkerwijs persoonlijke informatie hoeft te omvatten op enig moment. Pre-training en fine-tuning gegevens hoeven geen PII of andere persoonlijke gegevens te bevatten, en gebruikers hoeven geen persoonlijke informatie te onthullen tijdens hun interacties met generatieve AI-systemen.

Om hun persoonlijke informatie uit trainingsgegevens te verwijderen, kunnen mensen rechtstreeks naar de bron gaan en hun profielen verwijderen uit de verschillende gegevensbrokers (inclusief mensenzoeksites) die openbare records aggregeren en op de open markt brengen. Persoonlijke gegevensverwijderingsdiensten automatiseren het proces, waardoor het snel en gemakkelijk wordt. Natuurlijk heeft het verwijderen van persoonlijke gegevens uit de databases van deze bedrijven veel andere voordelen en geen nadelen.

Mensen genereren ook persoonlijke gegevens wanneer ze interactie hebben met software, inclusief generatieve AI. Om de stroom van deze gegevens te stoppen, moeten gebruikers meer bewust zijn dat hun interacties worden opgenomen, beoordeeld, geanalyseerd en gedeeld. Hun opties voor het vermijden hiervan zijn beperkt tot het beperken van wat ze onthullen aan online-systemen en het gebruik van on-device, open-source LLM’s waar mogelijk. Mensen doen over het algemeen al een goede job in het moduleren van wat ze bespreken in het openbaar – we moeten deze instincten alleen maar uitbreiden naar het domein van generatieve AI.

David Balaban is een computerbeveiligingsonderzoeker met meer dan 17 jaar ervaring in malwareanalyse en beoordeling van antivirussoftware. David runt MacSecurity.net en Privacy-PC.com projecten die deskundige meningen presenteren over hedendaagse informatiebeveiligingskwesties, waaronder sociale manipulatie, malware, penetratietests, bedreigingsinformatie, onlineprivacy en white hat-hacking. David heeft een sterke achtergrond in malware-ontwikkelingsonderzoek, met een recente focus op ransomware-tegenmaatregelen.