Tankeledare
Finns det ett tydligt svar på de integritetsrisker som genererande AI medför?
De integritetsrisker som genererande AI medför är mycket verkliga. Från ökad övervakning och exponering till mer effektiva phishing- och vishing-kampanjer än någonsin, urholkar genererande AI integriteten i stor skala, ostrukturerat, samtidigt som den tillhandahåller dåliga aktörer, vare sig de är kriminella, statsstödda eller regeringsstödda, med de verktyg de behöver för att rikta in sig på individer och grupper.
Den tydligaste lösningen på detta problem innebär att konsumenter och användare kollektivt vänder ryggen mot AI-hypen, kräver transparens från dem som utvecklar eller implementerar så kallade AI-funktioner och effektiv reglering från de regeringsorgan som övervakar deras verksamhet. Även om det är värt att sträva efter, är detta inte troligt att hända inom en snar framtid.
Vad som återstår är rimliga, även om nödvändigt ofullständiga, tillvägagångssätt för att mildra genererande AI:s integritetsrisker. Den långsiktiga, säkra, men tråkiga förutsägelsen är att ju mer allmänheten blir medveten om dataskydd i allmänhet, desto mindre blir integritetsriskerna som genererande AI:s massantagande medför.
Förstår vi alla begreppet genererande AI rätt?
Hypen kring AI är så allomfattande att en undersökning av vad människor menar med genererande AI är knappast nödvändig. Naturligtvis representerar ingen av dessa “AI”-funktioner, funktioner och produkter faktiskt exempel på sann artificiell intelligens, oavsett vad det skulle se ut som. Istället är de mestadels exempel på maskinlärning (ML), djupinlärning (DL) och stora språkmodeller (LLM).
Genererande AI, som namnet antyder, kan generera nytt innehåll – antingen text (inklusive programmeringsspråk), ljud (inklusive musik och mänskliga röster) eller videor (med ljud, dialog, klipp och kamerabyte). Allt detta uppnås genom att träna LLM för att identifiera, matcha och reproducera mönster i mänskligt genererat innehåll.
Låt oss ta ChatGPT som exempel. Liksom många LLM är det tränat i tre breda faser:
- Förträning: Under denna fas “matas” LLM med textmaterial från internet, böcker, akademiska tidskrifter och allt annat som innehåller potentiellt relevant eller användbar text.
- Övervakad instruktionsfinjustering: Modeller tränas för att svara mer sammanhängande på instruktioner med hjälp av högkvalitativa instruktions-svarspars, vanligtvis källade från människor.
- Stärkt inlärning från mänsklig återkoppling (RLHF): LLM som ChatGPT genomgår ofta denna ytterligare träningsfas, under vilken interaktioner med mänskliga användare används för att finslipa modellens utrustning med typiska användningsfall.
Alla tre träningsfaserna inbegriper data, antingen massiva lagrade data (såsom de som används i förträning) eller data som samlas in och bearbetas nästan i realtid (såsom den som används i RLHF). Det är den datan som bär den största delen av integritetsriskerna som genererande AI medför.
Vilka är integritetsriskerna som genererande AI medför?
Integritet kränks när personlig information om en individ (dataskyddspersonen) görs tillgänglig för andra individer eller enheter utan dataskyddspersonens samtycke. LLM tränas och finslipas på en extremt bred uppsättning data som kan och ofta innehåller personlig data. Denna data är vanligtvis skrapad från offentligt tillgängliga källor, men inte alltid.
Även när denna data hämtas från offentligt tillgängliga källor kan det faktum att den aggregeras och bearbetas av en LLM och sedan i princip görs sökbar genom LLM:s gränssnitt kunna hävdas vara en ytterligare kränkning av integritet.
Fasen stärkt inlärning från mänsklig återkoppling (RLHF) komplicerar saker. Under denna träningsfas används verkliga interaktioner med mänskliga användare för att iterativt korrigera och finslipa LLM:s svar. Detta innebär att en användares interaktioner med en LLM kan ses, delas och spridas av vem som helst med tillgång till träningsdata.
I de flesta fall är detta inte en integritetskränkning, med tanke på att de flesta LLM-utvecklare inkluderar integritetspolicyer och användarvillkor som kräver att användare samtycker till interaktion med LLM. Integritetsrisken ligger snarare i det faktum att många användare inte är medvetna om att de har samtyckt till sådan datainsamling och användning. Sådana användare är sannolikt att avslöja privata och känsliga uppgifter under sina interaktioner med dessa system, utan att inse att dessa interaktioner varken är konfidentiella eller privata.
På detta sätt kommer vi fram till de tre huvudsakliga sätten som genererande AI medför integritetsrisker:
- Stora lagrade förträningsdata som potentiellt innehåller personlig information är sårbara för kompromiss och exfiltration.
- Personlig information som ingår i förträningsdata kan läcka till andra användare av samma LLM genom dess svar på frågor och instruktioner.
- Personlig och konfidentiell information som tillhandahålls under interaktioner med LLM hamnar hos LLM:s anställda och möjligtvis tredjepartsentreprenörer, från vilka den kan ses eller läcka ut.
Dessa är alla risker för användarnas integritet, men sannolikheten för att personligt identifierbar information (PII) hamnar i fel händer verkar fortfarande ganska låg. Det är åtminstone tills dataombud kommer in i bilden. Dessa företag specialiserar sig på att sniffa upp PII och samla in, aggregera och sprida, om inte direkt sända ut, den.
Med PII och annan personlig data som har blivit en slags vara och dataombudsbranschen som har sprungit upp för att dra nytta av detta, är det alltför sannolikt att all personlig data som “kommer ut” kommer att plockas upp av dataombud och spridas långt och brett.
Integritetsriskerna med genererande AI i sammanhang
Innan vi tittar på riskerna som genererande AI medför för användarnas integritet i sammanhanget med specifika produkter, tjänster och företagspartnerskap, låt oss ta ett steg tillbaka och se på hela paletten av genererande AI-risker. I en artikel för IAPP tog Moraes och Previtali en datastyrd ansats för att finslipa Soloves “A Taxonomy of Privacy” från 2006, och reducerade de 16 integritetsrisker som beskrivs där till 12 AI-specifika integritetsrisker.
Dessa är de 12 integritetsrisker som ingår i Moraes och Previtalis reviderade taxonomi:
- Övervakning: AI förvärrar övervakningsrisker genom att öka omfattningen och allmänheten av personlig datainsamling.
- Identifiering: AI-teknologier möjliggör automatisk identitetslänkning över olika datakällor, vilket ökar riskerna relaterade till personlig identitetsexponering.
- Aggregering: AI kombinerar olika delar av data om en person för att göra antaganden, vilket skapar risker för integritetskränkning.
- Frenologi och fysiognomi: AI härleder personlighet eller sociala attribut från fysiska egenskaper, en ny riskkategori som inte finns i Soloves taxonomi.
- Sekundär användning: AI förvärrar användningen av personlig data för andra ändamål än de ursprungligen avsedda genom att återanvända data.
- Exklusion: AI gör det sämre att inte informera eller ge kontroll till användare över hur deras data används genom ogenomskinliga datapraxis.
- Säkerhet: AI:s datakrav och lagringspraxis riskerar dataläckor och otillbörlig åtkomst.
- Exponering: AI kan avslöja känslig information, såsom genom genererande AI-tekniker.
- Förvrängning: AI:s förmåga att generera realistisk men falsk information ökar spridningen av falsk eller vilseledande information.
- Avslöjande: AI kan orsaka obehörig delning av data när den härleder ytterligare känslig information från rådata.
- Ökad tillgänglighet: AI gör känslig information mer tillgänglig för en bredare publik än avsett.
- Intrång: AI-teknologier invaderar personligt utrymme eller ensamhet, ofta genom övervakningsåtgärder.
Detta gör för ganska alarmerande läsning. Det är viktigt att notera att denna taxonomi, till sin fördel, tar hänsyn till genererande AI:s tendens att hallucinera – att generera och presentera faktamässigt inkorrekt information med tillförsikt. Detta fenomen, även om det sällan avslöjar verklig information, är också en integritetsrisk. Spridningen av falsk och vilseledande information påverkar ämnet för integritet på sätt som är mer subtila än i fallet med korrekt information, men den påverkar det ändå.
Låt oss gå ner till några konkreta exempel på hur dessa integritetsrisker kommer i spel i sammanhanget med faktiska AI-produkter.
Direkta interaktioner med textbaserade genererande AI-system
Det enklaste fallet är det som innebär att en användare interagerar direkt med ett genererande AI-system, som ChatGPT, Midjourney eller Gemini. Användarens interaktioner med många av dessa produkter loggas, lagras och används för RLHF (stärkt inlärning från mänsklig återkoppling), övervakad instruktionsfinjustering och till och med förträning av andra LLM.
En analys av integritetspolicyn för många av dessa tjänster avslöjar också andra data-delningaktiviteter som backas upp av mycket olika syften, som marknadsföring och data-mäklare. Detta är en annan typ av integritetsrisk som genererande AI medför: dessa system kan karakteriseras som stora data-kanaler, som samlar in data som tillhandahålls av användare samt den som genereras genom deras interaktioner med den underliggande LLM.
Interaktioner med inbäddade genererande AI-system
Vissa användare kan interagera med genererande AI-gränssnitt som är inbäddade i den produkt de använder. Användaren kan veta att de använder en “AI”-funktion, men de är mindre benägna att veta vad det innebär i termer av integritetsrisker. Vad som kommer i förgrunden med inbäddade system är bristen på förståelse för det faktum att personlig data som delas med LLM kan hamna i händerna på utvecklare och data-mäklare.
Det finns två grader av bristande medvetenhet här: vissa användare inser att de interagerar med ett genererande AI-produkt; och vissa tror att de använder den produkt som genererande AI är byggt in i eller åtkomst till. I båda fallen kan användaren mycket väl ha (och förmodligen gjort) tekniskt samtyckt till villkoren och användarvillkoren som är associerade med deras interaktioner med det inbäddade systemet.
Andra partnerskap som utsätter användare för genererande AI-system
Vissa företag inbäddar eller på annat sätt inkluderar genererande AI-gränssnitt i sin programvara på sätt som är mindre uppenbara, vilket får användare att interagera – och dela information – med tredje parter utan att inse det. Lyckligtvis har “AI” blivit en så effektiv säljpunkt att det är osannolikt att ett företag skulle hålla sådana implementationer hemliga.
En annan fenomen i detta sammanhang är den växande motreaktion som sådana företag har upplevt efter att ha försökt dela användar- eller kunddata med genererande AI-företag som OpenAI. Datatjänsten Optery, till exempel, gick nyligen tillbaka på ett beslut att dela användardata med OpenAI på ett opt-out-basis, vilket innebar att användare var registrerade i programmet som standard.
Inte bara var kunderna snabba att uttrycka sin besvikelse, utan företagets datatjänst avfördes också från Privacy Guides lista över rekommenderade datatjänster. Till Opterys fördel gick de snabbt och öppet tillbaka på sitt beslut, men den allmänna motreaktionen är ändå betydande.
Optery-fallet är ett bra exempel här eftersom dess användare, på något sätt, är i framkanten av den växande skepticismen kring så kallade AI-implementeringar. De typer av människor som väljer en datatjänst är också, vanligtvis, de som kommer att uppmärksamma förändringar i användarvillkor och integritetspolicyer.
Bevis på en växande motreaktion mot genererande AI-dataanvändning
Integritetsmedvetna konsumenter har inte varit de enda som har uttryckt oro över genererande AI-system och deras associerade integritetsrisker. På den lagstiftande nivån har EU:s Artificiell Intelligenslag klassificerar risker enligt deras allvarlighetsgrad, med integritet som det uttryckligen eller underförstått kriteriet för att tilldela allvarlighetsgrad i de flesta fall. Lagen behandlar också frågorna om informerat samtycke som vi diskuterade tidigare.
USA, som är notoriskt långsamma att anta omfattande, federal integritetslagstiftning, har åtminstone vissa skyddsnät tack vare Exekutiv Order 14110. Återigen är integritetsproblem i förgrunden för de syften som anges för ordern: “ansvarslös användning [av AI-teknologier] kan förvärra samhällsskador som bedrägeri, diskriminering, bias och desinformation” – allt relaterat till tillgängligheten och spridningen av personlig data.
Att återgå till konsumentnivån är det inte bara särskilt integritetsmedvetna konsumenter som har reagerat mot integritetskränkande genererande AI-implementeringar. Microsofts nu ökända “AI-aktiverade” Recall-funktion, som var avsedd för dess Windows 11-operativsystem, är ett primärt exempel. När omfattningen av integritets- och säkerhetsrisker avslöjades, var motreaktionen tillräcklig för att få tech-jätten att backa. Tyvärr verkar Microsoft inte ha gett upp på idén, men den initiala offentliga reaktionen är ändå uppmuntrande.
Att stanna hos Microsoft har dess Copilot-program varit allmänt kritiserat för både integritets- och datasäkerhetsproblem. Eftersom Copilot tränades på GitHub-data (främst källkod), uppstod också kontrovers kring Microsofts påstådda brott mot programmerares och utvecklares programvarulicensavtal. Det är i fall som detta som gränserna mellan integritet och immateriella rättigheter börjar suddas ut, vilket ger integriteten ett monetärt värde – något som inte är lätt att göra.
Kanske är den största indikationen på att AI blir en röd flagga i konsumenternas ögon den ljumma, om inte direkt avvisande, offentliga reaktionen Apple fick till sin initiala AI-lansering, specifikt i fråga om data-delningavtal med OpenAI.
De styckevisa lösningarna
Det finns steg som lagstiftare, utvecklare och företag kan ta för att mildra några av riskerna som genererande AI medför. Dessa är de specialiserade lösningarna på specifika aspekter av det övergripande problemet, ingen av dessa lösningar förväntas vara tillräcklig, men alla tillsammans kunde göra en verklig skillnad.
- Data-minimering. Att minimera den mängd data som samlas in och lagras är ett rimligt mål, men det är direkt motsatt till genererande AI-utvecklares önskan om träningsdata.
- Transparens. Med tanke på den nuvarande tillståndet i ML, kan detta kanske inte ens vara tekniskt möjligt i många fall. Insikt i vilken data som bearbetas och hur när generering av ett visst utdata är ett sätt att säkerställa integritet i genererande AI-interaktioner.
- Anonymisering. All PII som inte kan uteslutas från träningsdata (genom data-minimering) bör anonymiseras. Problemet är att många populära anonymiserings- och pseudonymiseringstekniker är lätt besegrade.
- Användarsamtycke. Att kräva att användare samtycker till insamling och delning av deras data är avgörande men för öppet för missbruk och för benäget för konsumenternas nonchalans för att vara effektivt. Det är informerat samtycke som behövs här och de flesta konsumenter, ordentligt informerade, skulle inte samtycka till sådan data-delning, så incitamenten är feljusterade.
- Säkra data under överföring och i vila. En annan grund för både dataskydd och datasäkerhet, skydda data genom kryptografiska och andra medel kan alltid göras mer effektivt. Genererande AI-system tenderar dock att läcka data genom sina gränssnitt, vilket gör detta till endast en del av lösningen.
- Genomdriva upphovsrätt och immateriella rättigheter i sammanhanget med så kallad AI. ML kan fungera i en “svart låda”, vilket gör det svårt om inte omöjligt att spåra vilken upphovsrätt och immateriella rättigheter som hamnar i vilket genererande AI-utdata.
- Revisoner. En annan avgörande skyddsåtgärd som förhindras av den svarta lådan i LLM och de genererande AI-system som de stöder. Detta förstärks av den slutna karaktären hos de flesta genererande AI-produkter, som begränsar revisoner till endast de som utförs på utvecklarens bekvämlighet.
Alla dessa tillvägagångssätt för problemet är giltiga och nödvändiga, men ingen är tillräcklig. De kräver alla lagstöd för att komma in i meningsfull effekt, vilket innebär att de är dömda att vara efter i tiden medan detta dynamiska område fortsätter att utvecklas.
Den tydliga lösningen
Lösningen på de integritetsrisker som genererande AI medför är varken revolutionerande eller spännande, men om den förs till sin logiska slutsats, kan resultaten vara båda. Den tydliga lösningen innebär att vardagliga konsumenter blir medvetna om värdet av deras data till företag och det ovärderliga värdet av dataskydd för sig själva.
Konsumenter är källorna och motorerna bakom den privata informationen som driver den moderna övervaknings ekonomin. När en kritisk massa av konsumenter börjar stoppa flödet av privat data in i den offentliga sfären och börjar kräva ansvar från de företag som handlar med personlig data, kommer systemet att tvingas korrigera sig själv.
Det uppmuntrande med genererande AI är att den, till skillnad från nuvarande reklam- och marknadsföringsmodeller, inte behöver inbegripa personlig information på något stadium. Förträning och finjustering av data behöver inte innehålla PII eller annan personlig data och användare behöver inte avslöja samma under sina interaktioner med genererande AI-system.
För att ta bort sin personliga information från träningsdata kan människor gå rakt till källan och ta bort sina profiler från de olika data-mäklare (inklusive person-sök-sidor) som aggregerar offentliga register, vilket bringar dem i omlopp på den öppna marknaden. Personlig datatjänst automatiserar processen, vilket gör den snabb och enkel. Naturligtvis har borttagning av personlig data från dessa företags databaser många andra fördelar och inga nackdelar.
Människor genererar också personlig data när de interagerar med programvara, inklusive genererande AI. För att stoppa flödet av denna data kommer användare att behöva vara mer medvetna om att deras interaktioner spelas in, granskas, analyseras och delas. Deras alternativ för att undvika detta begränsas till att begränsa vad de avslöjar för online-system och använda enhetsbaserade, öppen källkods-LLM där det är möjligt. Människor, i allmänhet, gör redan ett bra jobb med att reglera vad de diskuterar offentligt – vi behöver bara utöka dessa instinkter till området genererande AI.












