Verbind je met ons

Gedachte leiders

Bestaat er een duidelijke oplossing voor de privacyrisico's van generatieve AI?

mm

De privacyrisico's die generatieve AI met zich meebrengt, zijn zeer reëel. Van meer toezicht en blootstelling tot effectievere phishing- en vishingcampagnes dan ooit, generatieve AI ondermijnt de privacy massaal, zonder onderscheid, terwijl het kwaadwillenden, of ze nu crimineel, door de staat gesponsord of door de overheid worden, voorziet van de tools die ze nodig hebben om individuen en groepen te targeten.

De duidelijkste oplossing voor dit probleem is dat consumenten en gebruikers collectief hun rug keren naar AI-hype, transparantie eisen van degenen die zogenaamde AI-functies ontwikkelen of implementeren, en effectieve regulering eisen van de overheidsinstanties die toezicht houden op hun activiteiten. Hoewel het de moeite waard is om hiernaar te streven, is het niet waarschijnlijk dat dit binnenkort zal gebeuren.

Wat overblijft zijn redelijke, zelfs als noodzakelijkerwijs onvolledige, benaderingen om generatieve AI-privacyrisico's te beperken. De langetermijn, zekere, maar saaie voorspelling is dat hoe meer het publiek wordt opgeleid over dataprivacy in het algemeen, hoe kleiner de privacyrisico's worden die worden veroorzaakt door de massale adoptie van generatieve AI.

Begrijpen we allemaal het concept van generatieve AI goed?

De hype rondom AI is zo alomtegenwoordig dat een onderzoek naar wat mensen bedoelen met generatieve AI nauwelijks nodig is. Natuurlijk zijn geen van deze "AI"-functies, functionaliteiten en producten daadwerkelijk voorbeelden van echte kunstmatige intelligentie, hoe dat er ook uit zou zien. Het zijn eerder voorbeelden van machine learning (ML), diepgaand leren (DL), en grote taalmodellen (LLM's).

Generative AI kan, zoals de naam al doet vermoeden, nieuwe content genereren – of het nu tekst is (inclusief programmeertalen), audio (inclusief muziek en mensachtige stemmen) of video's (met geluid, dialogen, cuts en camerawisselingen). Dit alles wordt bereikt door LLM's te trainen om patronen in door mensen gegenereerde content te identificeren, matchen en reproduceren.

Laten we ChatGPT als voorbeeld nemen. Zoals veel LLM's wordt het getraind in drie brede fasen:

  • Vooropleiding:Tijdens deze fase wordt de LLM gevoed met tekstmateriaal van internet, boeken, wetenschappelijke tijdschriften en alles wat mogelijk relevante of nuttige tekst bevat.
  • Begeleide instructie fine-tuning:Modellen worden getraind om coherenter te reageren op instructies met behulp van hoogwaardige instructie-responsparen, die doorgaans van mensen afkomstig zijn.
  • Versterkend leren van menselijke feedback (RLHF): LLM's zoals ChatGPT ondergaan vaak deze extra trainingsfase, waarbij interacties met menselijke gebruikers worden gebruikt om het model beter af te stemmen op typische use cases.

Alle drie de fasen van het trainingsproces omvatten data, of het nu gaat om enorme hoeveelheden vooraf verzamelde data (zoals die worden gebruikt in pre-training) of data die bijna in realtime worden verzameld en verwerkt (zoals die worden gebruikt in RLHF). Het zijn die data die het leeuwendeel van de privacyrisico's met zich meebrengen die voortvloeien uit generatieve AI.

Wat zijn de privacyrisico's van generatieve AI?

Privacy wordt in gevaar gebracht wanneer persoonlijke informatie over een individu (de betrokkene) beschikbaar wordt gesteld aan andere individuen of entiteiten zonder toestemming van de betrokkene. LLM's worden vooraf getraind en verfijnd op een extreem breed scala aan data die persoonlijke data kunnen bevatten en dat vaak ook doen. Deze data wordt doorgaans uit openbare bronnen gehaald, maar niet altijd.

Zelfs als die gegevens afkomstig zijn uit openbare bronnen, kan worden betoogd dat het samenvoegen en verwerken ervan door een LLM en het vervolgens in feite doorzoekbaar maken ervan via de interface van de LLM, een verdere schending van de privacy is.

Ocuco's Medewerkers versterking leren van menselijke feedback (RLHF)-fase maakt het ingewikkeld. In deze trainingsfase worden echte interacties met menselijke gebruikers gebruikt om de reacties van de LLM iteratief te corrigeren en te verfijnen. Dit betekent dat de interacties van een gebruiker met een LLM bekeken, gedeeld en verspreid kunnen worden door iedereen met toegang tot de trainingsdata.

In de meeste gevallen is dit geen schending van de privacy, aangezien de meeste LLM-ontwikkelaars privacybeleid en servicevoorwaarden opnemen die vereisen dat gebruikers toestemming geven voordat ze met de LLM interacteren. Het privacyrisico ligt hier eerder in het feit dat veel gebruikers zich er niet van bewust zijn dat ze hebben ingestemd met dergelijke gegevensverzameling en -gebruik. Dergelijke gebruikers zullen waarschijnlijk privé- en gevoelige informatie onthullen tijdens hun interacties met deze systemen, zonder zich te realiseren dat deze interacties noch vertrouwelijk noch privé zijn.

Op deze manier komen we tot de drie belangrijkste manieren waarop generatieve AI privacyrisico's met zich meebrengt:

  • Grote hoeveelheden pre-trainingsgegevens die mogelijk persoonlijke informatie bevatten, zijn kwetsbaar voor compromittering en exfiltratie.
  • Persoonlijke informatie die is opgenomen in de pre-trainingsgegevens kan via de reacties op vragen en instructies van dezelfde LLM naar andere gebruikers lekken.
  • Persoonlijke en vertrouwelijke informatie die u tijdens interacties met LLM's verstrekt, komt terecht bij de werknemers van de LLM's en mogelijk bij externe contractanten. Van daaruit kan de informatie worden ingezien of gelekt.

Dit zijn allemaal risico's voor de privacy van gebruikers, maar de kans dat persoonlijk identificeerbare informatie (PII) in de verkeerde handen terechtkomt, lijkt nog steeds vrij klein. Dat is tenminste zo totdat databrokers in beeld komen. Deze bedrijven zijn gespecialiseerd in het opsporen van PII en het verzamelen, aggregeren en verspreiden, zo niet ronduit uitzenden ervan.

Nu PII en andere persoonlijke gegevens een soort handelswaar zijn geworden en de databrokerindustrie opkomt om hier winst uit te halen, is de kans groot dat alle persoonlijke gegevens die ‘naar buiten komen’ door databrokers worden opgepikt en wijd en zijd worden verspreid.

De privacyrisico's van generatieve AI in context

Voordat we kijken naar de risico's die generatieve AI vormt voor de privacy van gebruikers in de context van specifieke producten, services en zakelijke partnerschappen, laten we een stap terug doen en een meer gestructureerde blik werpen op het volledige palet van generatieve AI-risico's. Moraes en Previtali schreven voor de IAPP en namen een datagestuurde aanpak om Solove's "A Taxonomy of Privacy" uit 2006 te verfijnen, waarbij de 16 privacyrisico's die daarin werden beschreven, werden teruggebracht tot 12 AI-specifieke privacyrisico's.

Dit zijn de 12 privacyrisico's die in de documenten van Moraes en Previtali zijn opgenomen herziene taxonomie:

  • Toezicht: AI vergroot de risico's op toezicht door de omvang en alomtegenwoordigheid van het verzamelen van persoonlijke gegevens te vergroten.
  • Identificatie: AI-technologieën maken geautomatiseerde identiteitskoppeling tussen verschillende gegevensbronnen mogelijk, waardoor de risico's op blootstelling van persoonlijke identiteiten toenemen.
  • Aggregatie: AI combineert verschillende stukjes data over een persoon om conclusies te trekken, waardoor er een risico op inbreuk op de privacy ontstaat.
  • Frenologie en fysiognomie: AI leidt persoonlijkheids- of sociale kenmerken af ​​uit fysieke kenmerken, een nieuwe risicocategorie die niet in Solove's taxonomie voorkomt.
  • Secundair gebruik: AI verergert het gebruik van persoonlijke gegevens voor andere doeleinden dan oorspronkelijk bedoeld, door gegevens opnieuw te gebruiken.
  • Uitsluiting: AI zorgt ervoor dat gebruikers niet goed worden geïnformeerd en geen controle krijgen over hoe hun gegevens worden gebruikt, omdat hun gegevens ondoorzichtig zijn.
  • Onzekerheid: De datavereisten en opslagpraktijken van AI brengen het risico van datalekken en onrechtmatige toegang met zich mee.
  • Blootstelling: AI kan gevoelige informatie onthullen, bijvoorbeeld via generatieve AI-technieken.
  • Vervorming: Het vermogen van AI om realistische maar neppe content te genereren, vergroot de verspreiding van onjuiste of misleidende informatie.
  • Disclosure: AI kan leiden tot onjuiste gegevensuitwisseling wanneer het extra gevoelige informatie uit ruwe data afleidt.
  • Verhoogde toegankelijkheid: AI maakt gevoelige informatie toegankelijker voor een breder publiek dan bedoeld.
  • Indringing: AI-technologieën dringen de persoonlijke ruimte of eenzaamheid binnen, vaak via bewakingsmaatregelen.

Dit levert nogal alarmerende lectuur op. Het is belangrijk om op te merken dat deze taxonomie, tot zijn eer, rekening houdt met de neiging van generatieve AI om hallucineren – om feitelijk onjuiste informatie te genereren en met vertrouwen te presenteren. Dit fenomeen, hoewel het zelden echte informatie onthult, is ook een privacyrisico. De verspreiding van valse en misleidende informatie tast de privacy van het onderwerp aan op manieren die subtieler zijn dan in het geval van nauwkeurige informatie, maar het tast de privacy niettemin aan.

Laten we eens kijken naar een aantal concrete voorbeelden van hoe deze privacyrisico's een rol spelen in de context van daadwerkelijke AI-producten.

Directe interacties met op tekst gebaseerde generatieve AI-systemen

Het eenvoudigste geval is dat waarbij een gebruiker rechtstreeks met een generatief AI-systeem communiceert, zoals ChatGPT, Midjourney of Gemini. De interacties van de gebruiker met veel van deze producten worden vastgelegd, opgeslagen en gebruikt voor RLHF (reinforcement learning from human feedback), supervised instruction fine-tuning en zelfs de pre-training van andere LLM's.

Een analyse van het privacybeleid van veel van dit soort diensten onthult ook andere activiteiten voor het delen van gegevens die worden ondersteund door heel andere doeleinden, zoals marketing en gegevensmakelaardij. Dit is een heel ander type privacyrisico dat generatieve AI met zich meebrengt: deze systemen kunnen worden gekarakteriseerd als enorme datafunnels die gegevens verzamelen die door gebruikers worden verstrekt, evenals gegevens die worden gegenereerd via hun interacties met de onderliggende LLM.

Interacties met ingebedde generatieve AI-systemen

Sommige gebruikers kunnen interacteren met generatieve AI-interfaces die zijn ingebed in welk product ze ook maar gebruiken. De gebruiker weet misschien dat ze een "AI"-functie gebruiken, maar ze weten minder goed wat dat inhoudt in termen van risico's voor gegevensprivacy. Wat naar voren komt bij ingebedde systemen is dit gebrek aan waardering voor het feit dat persoonlijke gegevens die worden gedeeld met de LLM in handen kunnen komen van ontwikkelaars en gegevensmakelaars.

Er zijn hier twee gradaties van gebrek aan bewustzijn: sommige gebruikers realiseren zich dat ze interacteren met een generatief AI-product; en sommigen geloven dat ze het product gebruiken waarin de generatieve AI is ingebouwd of waar ze toegang toe hebben. In beide gevallen kan het zijn dat de gebruiker (en waarschijnlijk ook) technisch heeft ingestemd met de algemene voorwaarden die zijn gekoppeld aan hun interacties met het ingebedde systeem.

Andere partnerschappen die gebruikers blootstellen aan generatieve AI-systemen

Sommige bedrijven embedden of nemen generatieve AI-interfaces op in hun software op manieren die minder voor de hand liggen, waardoor gebruikers interactie hebben met – en informatie delen met – derden zonder dat ze het doorhebben. Gelukkig is “AI” zo’n effectief verkoopargument geworden dat het onwaarschijnlijk is dat een bedrijf dergelijke implementaties geheim zou houden.

Een ander fenomeen in deze context is de groeiende tegenreactie die dergelijke bedrijven hebben ervaren na het proberen om gebruikers- of klantgegevens te delen met generatieve AI-bedrijven zoals OpenAI. Het bedrijf voor gegevensverwijdering Optery bijvoorbeeld, onlangs een besluit teruggedraaid om gebruikersgegevens met OpenAI te delen op basis van opt-out, wat betekent dat gebruikers standaard waren ingeschreven voor het programma.

Niet alleen waren klanten snel om hun teleurstelling uiten, maar de dataverwijderingsservice van het bedrijf werd prompt van de lijst met aanbevolen dataverwijderingsservices van Privacy Guides gehaald. Tot eer van Optery is het besluit snel en transparant teruggedraaid, maar het is de algemene terugslag die hier van belang is: mensen beginnen de risico's van het delen van data met "AI"-bedrijven te beseffen.

De Optery-case is hier een goed voorbeeld van, omdat de gebruikers ervan in zekere zin voorop lopen in het groeiende scepticisme rondom zogenaamde AI-implementaties. De mensen die kiezen voor een dataverwijderingsservice zijn doorgaans ook degenen die aandacht besteden aan veranderingen in termen van service en privacybeleid.

Bewijs van een groeiende tegenreactie tegen generatief AI-datagebruik

Privacybewuste consumenten zijn niet de enigen die hun zorgen uiten over generatieve AI-systemen en de bijbehorende risico's voor gegevensprivacy. Op wetgevingsniveau heeft de EU Wet kunstmatige intelligentie categoriseert risico's op basis van hun ernst, waarbij dataprivacy in de meeste gevallen het expliciet of impliciet vermelde criterium is voor het toeschrijven van ernst. De wet behandelt ook de kwesties van geïnformeerde toestemming die we eerder bespraken.

De VS, die notoir traag is met het aannemen van uitgebreide federale wetgeving inzake gegevensbescherming, heeft dankzij Executive Order 14110. Nogmaals, zorgen over gegevensprivacy staan ​​voorop in de doelstellingen die voor de Order zijn gegeven: "onverantwoordelijk gebruik [van AI-technologieën] kan maatschappelijke schade zoals fraude, discriminatie, vooringenomenheid en desinformatie verergeren" - allemaal gerelateerd aan de beschikbaarheid en verspreiding van persoonlijke gegevens.

Terugkerend naar het consumentenniveau zijn het niet alleen de bijzonder privacybewuste consumenten die zich hebben verzet tegen privacy-invasieve generatieve AI-implementaties. De inmiddels beruchte "AI-aangedreven" Recall-functie van Microsoft, bestemd voor zijn Windows 11-besturingssysteem, is een goed voorbeeld. Toen de omvang van de privacy- en beveiligingsrisico's eenmaal aan het licht kwam, terugslag was genoeg om de techgigant terug te laten krabbelen. Helaas lijkt Microsoft het idee niet opgegeven te hebben, maar de eerste publieke reactie is desalniettemin bemoedigend.

Als we bij Microsoft blijven, is het Copilot-programma op grote schaal bekritiseerd vanwege zowel gegevensprivacy als gegevensbeveiliging problemen. Omdat Copilot werd getraind op GitHub-data (voornamelijk broncode), ontstond er ook controverse rond Microsofts vermeende schendingen van softwarelicentieovereenkomsten van programmeurs en ontwikkelaars. In dit soort gevallen beginnen de grenzen tussen dataprivacy en intellectuele eigendomsrechten te vervagen, waardoor de eerste een monetaire waarde krijgt – iets dat niet gemakkelijk is.

Misschien wel het grootste signaal dat consumenten steeds meer op AI letten, is de lauwe, of zelfs ronduit terughoudende, publieke reactie op de introductie van AI door Apple, met name met betrekking tot de overeenkomsten voor het delen van gegevens met OpenAI.

De stapsgewijze oplossingen

Er zijn stappen die wetgevers, ontwikkelaars en bedrijven kunnen nemen om een ​​aantal van de risico's van generatieve AI te verminderen. Dit zijn de gespecialiseerde oplossingen voor specifieke aspecten van het overkoepelende probleem. Er wordt niet verwacht dat één van deze oplossingen voldoende is, maar als ze allemaal samenwerken, kunnen ze echt een verschil maken.

  • Gegevensminimalisatie. Het minimaliseren van de hoeveelheid verzamelde en opgeslagen data is een haalbaar doel, maar het staat haaks op de wens van generatieve AI-ontwikkelaars om data te trainen.
  • Transparantie. Gezien de huidige stand van zaken in ML is dit in veel gevallen technisch gezien misschien niet eens haalbaar. Inzicht in welke gegevens worden verwerkt en hoe bij het genereren van een bepaalde output is een manier om privacy te waarborgen in generatieve AI-interacties.
  • Anonimisering. Alle PII die niet kan worden uitgesloten van trainingsdata (door dataminimalisatie) moet worden geanonimiseerd. Het probleem is dat veel populaire anonimiserings- en pseudonimiseringstechnieken gemakkelijk te omzeilen zijn.
  • Toestemming van de gebruiker. Het vereisen dat gebruikers toestemming geven voor het verzamelen en delen van hun gegevens is essentieel, maar te vatbaar voor misbruik en te vatbaar voor consumentenzelfgenoegzaamheid om effectief te zijn. Het is geïnformeerde toestemming die hier nodig is en de meeste consumenten, goed geïnformeerd, zouden niet instemmen met dergelijke gegevensdeling, dus de prikkels zijn niet op elkaar afgestemd.
  • Beveiliging van gegevens tijdens verzending en opslag. Een andere basis van zowel dataprivacy als databeveiliging, het beschermen van data via cryptografische en andere middelen, kan altijd effectiever worden gemaakt. Generatieve AI-systemen lekken echter vaak data via hun interfaces, waardoor dit slechts een deel van de oplossing is.
  • Handhaving van auteursrecht en IE-wetgeving in de context van zogenaamde AI. ML kan opereren in een “black box”, waardoor het moeilijk, zo niet onmogelijk is om te traceren welk auteursrechtelijk beschermd materiaal en welke IP in welke generatieve AI-output terechtkomt.
  • Audits. Een andere cruciale maatregel die wordt gedwarsboomd door de black-box-aard van LLM's en de generatieve AI-systemen die ze ondersteunen. Deze inherente beperking wordt nog eens versterkt door de closed-source-aard van de meeste generatieve AI-producten, waardoor audits worden beperkt tot alleen die welke worden uitgevoerd op het gemak van de ontwikkelaar.

Al deze benaderingen van het probleem zijn geldig en noodzakelijk, maar geen enkele is voldoende. Ze hebben allemaal wettelijke steun nodig om zinvol effect te hebben, wat betekent dat ze gedoemd zijn om achterop te raken naarmate dit dynamische veld zich blijft ontwikkelen.

De heldere oplossing

De oplossing voor de privacyrisico's die generatieve AI met zich meebrengt, is noch revolutionair noch opwindend, maar als we het tot een logische conclusie doortrekken, kunnen de resultaten beide zijn. De duidelijke oplossing houdt in dat alledaagse consumenten zich bewust worden van de waarde van hun gegevens voor bedrijven en de onbetaalbaarheid van gegevensprivacy voor henzelf.

Consumenten zijn de bronnen en motoren achter de privé-informatie die de moderne surveillance-economie aandrijft. Zodra een kritische massa consumenten de stroom van privé-data naar de publieke sfeer begint te stoppen en verantwoording begint te eisen van de bedrijven die handelen in persoonlijke data, zal het systeem zichzelf moeten corrigeren.

Het bemoedigende aan generatieve AI is dat het, in tegenstelling tot huidige reclame- en marketingmodellen, in geen enkel stadium persoonlijke informatie hoeft te bevatten. Pre-training en fine-tuning data hoeven geen PII of andere persoonlijke gegevens te bevatten en gebruikers hoeven deze niet bloot te stellen tijdens hun interacties met generatieve AI-systemen.

Om hun persoonlijke gegevens uit trainingsgegevens te verwijderen, kunnen mensen direct naar de bron gaan en hun profielen verwijderen van de verschillende gegevensmakelaars (waaronder websites voor het zoeken naar personen) die openbare gegevens verzamelen, zodat deze op de open markt kunnen circuleren. Diensten voor het verwijderen van persoonlijke gegevens automatiseer het proces, waardoor het snel en eenvoudig wordt. Natuurlijk heeft het verwijderen van persoonlijke gegevens uit de databases van deze bedrijven nog veel meer voordelen en geen nadelen.

Mensen genereren ook persoonlijke gegevens wanneer ze interacteren met software, waaronder generatieve AI. Om de stroom van deze gegevens in te dammen, moeten gebruikers er meer op letten dat hun interacties worden vastgelegd, beoordeeld, geanalyseerd en gedeeld. Hun opties om dit te vermijden, komen neer op het beperken van wat ze onthullen aan online systemen en het gebruiken van on-device, open-source LLM's waar mogelijk. Mensen zijn over het algemeen al goed in het moduleren van wat ze in het openbaar bespreken - we moeten deze instincten alleen uitbreiden naar het rijk van generatieve AI.

David Balaban is een computerbeveiligingsonderzoeker met meer dan 17 jaar ervaring in het analyseren van malware en het evalueren van antivirussoftware. David rent MacSecurity.net en Privacy-PC.com projecten die deskundig advies geven over hedendaagse informatiebeveiligingskwesties, waaronder social engineering, malware, penetratietesten, bedreigingsinformatie, online privacy en white hat hacking. David heeft een sterke achtergrond in het oplossen van malware, met een recente focus op tegenmaatregelen tegen ransomware.