Andersons vinkel

Afskærmning af prompter fra LLM-datalækager

Udgivet Februar 27, 2025

Martin Anderson

ChatGPT-4o: 'Ortografisk 1792x1024 billede af en SIM-lignende politibetjent, der holder hånden op til en borger for at forhindre dem i at gå længere'

Udtalelse En interessant IBM NeurIPS 2024 indsendelse fra slutningen af 2024 genopstod på Arxiv i sidste uge. Det foreslår et system, der automatisk kan gribe ind for at beskytte brugere mod at indsende personlige eller følsomme oplysninger i en besked, når de har en samtale med en Large Language Model (LLM) som f.eks. ChatGPT.

Mock-up-eksempler brugt i en brugerundersøgelse til at bestemme, hvordan folk foretrækker at interagere med en hurtig-interventionstjeneste. Kilde: https://arxiv.org/pdf/2502.18509

De ovenfor viste mock-ups blev anvendt af IBM-forskerne i en undersøgelse for at teste potentiel brugerfriktion over for denne form for 'interferens'.

Selvom der gives sparsomme detaljer om GUI-implementeringen, kan vi antage, at en sådan funktionalitet enten kan inkorporeres i et browser-plugin kommunikere med et lokalt 'firewall' LLM-framework; eller at der kunne oprettes en applikation, der kan koble sig direkte til (for eksempel OpenAI API'en) og dermed effektivt genskabe OpenAIs egen downloadbare selvstændigt program til ChatGPT, men med ekstra sikkerhedsforanstaltninger.

Når det er sagt, selvcensurerer ChatGPT selv automatisk svar på prompter, som det opfatter indeholder kritisk information, såsom bankoplysninger:

ChatGPT nægter at engagere sig i prompter, der indeholder opfattede kritiske sikkerhedsoplysninger, såsom bankoplysninger (detaljerne i prompten ovenfor er fiktive og ikke-funktionelle). Kilde: https://chatgpt.com/

ChatGPT er dog langt mere tolerant over for forskellige typer af personlige oplysninger – selvom det på nogen måde ikke er i brugerens bedste interesse at videregive sådanne oplysninger (i dette tilfælde måske af forskellige årsager relateret til arbejde og videregivelse):

Eksemplet ovenfor er fiktivt, men ChatGPT tøver ikke med at deltage i en samtale om brugeren om et følsomt emne, der udgør en potentiel risiko for omdømme eller indtjening (eksemplet ovenfor er fuldstændig fiktivt).

I ovenstående tilfælde kunne det have været bedre at skrive: "Hvilken betydning har en leukæmidiagnose for en persons skriveevne og mobilitet?"

IBM-projektet identificerer og genfortolker sådanne anmodninger fra en 'personlig' til en 'generisk' holdning.

Skema for IBM-systemet, som bruger lokale LLM'er eller NLP-baserede heuristika til at identificere følsomt materiale i potentielle prompter.

Dette forudsætter, at materiale indsamlet af online LLM'er i denne spæde fase af offentlighedens entusiastiske adoption af AI-chat aldrig vil blive videregivet til hverken efterfølgende modeller eller senere reklamerammer, der kan udnytte brugerbaserede søgeforespørgsler til at give potentielle resultater. målrettet reklame.

Selvom der ikke er kendt noget sådant system eller arrangement nu, var en sådan funktionalitet heller ikke tilgængelig ved begyndelsen af internetadoptionen i de tidlige 1990'ere; siden da, deling af information på tværs af domæner at fodre personlig annoncering har ført til forskellige skandaler, såvel som paranoia.

Derfor tyder historien på, at det ville være bedre at rense LLM-prompt-input nu, før sådanne data akkumuleres i mængde, og før vores LLM-baserede indsendelser ender i permanente cykliske databaser og/eller modeller eller andre informationsbaserede strukturer og skemaer.

Husk mig?

En faktor, der taler imod brugen af 'generiske' eller rensede LLM-prompts, er ærligt talt, at muligheden for at tilpasse en dyr API-kun LLM som ChatGPT er ret overbevisende, i hvert fald med den nuværende teknologi – men dette kan indebære langsigtet eksponering af private oplysninger.

Jeg beder ofte ChatGPT om at hjælpe mig med at formulere Windows PowerShell-scripts og BAT-filer for at automatisere processer såvel som om andre tekniske spørgsmål. Til dette formål finder jeg det nyttigt, at systemet permanent husker detaljer om den hardware, jeg har til rådighed; mine eksisterende tekniske kompetencer (eller mangel på samme); og forskellige andre miljøfaktorer og brugerdefinerede regler:

ChatGPT giver en bruger mulighed for at udvikle en 'cache' af minder, der vil blive anvendt, når systemet overvejer svar på fremtidige prompter.

ChatGPT giver en bruger mulighed for at udvikle en 'cache' af hukommelser, der vil blive anvendt, når systemet overvejer svar på fremtidige prompts.

Uundgåeligt opbevarer dette oplysninger om mig på eksterne servere, underlagt vilkår og betingelser, der kan udvikle sig over tid, uden nogen garanti for, at OpenAI (selvom det kunne være enhver anden større LLM-udbyder) vil respektere de vilkår, de opstiller.

Generelt er kapaciteten til at opbygge en cache af minder i ChatGPT dog mest nyttig på grund af begrænset opmærksomhedsvindue af LLM'er generelt; uden langsigtede (personliggjorte) indlejringer føler brugeren frustrerende nok, at de taler med en enhed, der lider af Anterograd amnesi.

Det er svært at sige, om nyere modeller med tiden vil blive tilstrækkeligt effektive til at give nyttige svar uden behov for at cache hukommelser eller oprette brugerdefinerede GPT'er der er gemt online.

Midlertidig amnesi

Selvom man kan gøre ChatGPT-samtaler 'midlertidige', er det nyttigt at have chathistorikken som en reference, der kan destilleres, når tiden tillader det, til en mere sammenhængende lokal optegnelse, måske på en noteplatform; men under alle omstændigheder kan vi ikke vide præcis, hvad der sker med disse 'kasserede' chats (selvom OpenAI... stater de vil ikke blive brugt til træning, det står ikke, at de er destrueret), baseret på ChatGPT-infrastrukturen. Alt, hvad vi ved, er, at chats ikke længere vises i vores historik, når 'Midlertidige chats' er slået til i ChatGPT.

Forskellige nylige kontroverser tyder på, at API-baserede udbydere som OpenAI ikke nødvendigvis bør have ansvaret for at beskytte brugerens privatliv, herunder afsløring af emergent memorering, hvilket betyder, at større LLM'er er mere tilbøjelige til at huske nogle træningseksempler fuldt ud, og øger risikoen for videregivelse af brugerspecifikke data – blandt andre offentlige hændelser, der har overbevist et væld af store navnevirksomheder, såsom Samsung, at forbyde LLM'er til intern virksomhedsbrug.

Tænk anderledes

Denne spænding mellem den ekstreme nytteværdi og den åbenlyse potentielle risiko ved LLM'er vil kræve nogle opfindsomme løsninger - og IBM-forslaget ser ud til at være en interessant grundlæggende skabelon i denne linje.

Tre IBM-baserede omformuleringer, der balancerer nytte og databeskyttelse. I det laveste (lyserøde) bånd ser vi en prompt, der ligger uden for systemets evne til at rense på en meningsfuld måde.

Tre IBM-baserede omformuleringer, der balancerer nytteværdi mod databeskyttelse. I det laveste (lyserøde) bånd ser vi en prompt, der ligger uden for systemets evne til at rense på en meningsfuld måde.

IBM-tilgangen opsnapper udgående pakker til en LLM på netværksniveau og omskriver dem efter behov, før originalen kan sendes. De mere omfattende GUI-integrationer, der ses i starten af artiklen, er kun illustrative for, hvor en sådan tilgang kunne gå hen, hvis den udvikles.

Uden tilstrækkelig medvirken forstår brugeren naturligvis muligvis ikke, at de får et svar på en let ændret omformulering af deres oprindelige indsendelse. Denne mangel på gennemsigtighed svarer til, at et operativsystems firewall blokerer adgang til et websted eller en tjeneste uden at informere brugeren, som derefter fejlagtigt kan søge efter andre årsager til problemet.

Forespørgsler som Sikkerhedsforpligtelser

Udsigten til 'hurtig indgriben' minder meget om Windows OS-sikkerhed, som har udviklet sig fra et kludetæppe af (valgfrit installerede) kommercielle produkter i 1990'erne til en ikke-valgfri og strengt håndhævet pakke af netværksforsvarsværktøjer, der følger med som standard i en Windows-installation, og som kræver en vis indsats at deaktivere eller afaktivere.

Hvis prompt desinficering udvikler sig, som netværksfirewalls har gjort i løbet af de sidste 30 år, kan IBM-avisens forslag tjene som en plan for fremtiden: at implementere en fuldt lokal LLM på brugerens maskine for at filtrere udgående prompts rettet mod kendte LLM API'er. Dette system vil naturligvis skulle integrere GUI-rammer og meddelelser, hvilket giver brugerne kontrol – medmindre administrative politikker tilsidesætter det, som det ofte sker i forretningsmiljøer.

Forskerne gennemførte en analyse af en open source-version af Del GPT datasæt for at forstå, hvor ofte kontekstuelt privatliv krænkes i scenarier i den virkelige verden.

Llama-3.1-405B-instruktion blev anvendt som en 'dommer'-model til at opdage krænkelser af kontekstuel integritet. Ud fra et stort sæt af samtaler blev en delmængde af samtaler med én tur analyseret baseret på længde. Dommermodellen vurderede derefter konteksten, følsomme oplysninger og nødvendigheden af opgaveafslutning, hvilket førte til identifikation af samtaler, der indeholdt potentielle kontekstuelle integritetskrænkelser.

En mindre delmængde af disse samtaler, som viste definitive kontekstuelle krænkelser af privatlivets fred, blev analyseret yderligere.

Selve rammeværket blev implementeret ved hjælp af modeller, der er mindre end typiske chatagenter såsom ChatGPT, for at muliggøre lokal implementering via Ollama.

Skema for systemet med hurtig intervention.

De tre evaluerede LLM'er var Mixtral-8x7B-Instruct-v0.1; Llama-3.1-8B-instruktionOg DeepSeek-R1-Destill-Llama-8B.

Brugerprompts behandles af frameworket i tre trin: kontekstidentifikation; klassificering af følsomme oplysningerOg omformulering.

To tilgange blev implementeret til klassificering af følsomme oplysninger: dynamisk og struktureret klassifikation: dynamisk klassifikation bestemmer de væsentlige detaljer baseret på deres brug inden for en specifik samtale; struktureret klassificering giver mulighed for specifikation af en foruddefineret liste over følsomme attributter, som altid anses for at være uvæsentlige. Modellen omformulerer prompten, hvis den opdager ikke-væsentlige følsomme detaljer ved enten at fjerne eller omformulere dem for at minimere privatlivsrisici og samtidig bevare brugervenligheden.

Hjemmeregler

Selvom struktureret klassificering som koncept ikke er godt illustreret i IBM-artiklen, minder det mest om metoden 'Private Data Definitions' i Private forespørgsler initiativ, som giver et selvstændigt program, der kan downloades, og som kan omskrive prompter – dog uden mulighed for direkte at gribe ind på netværksniveau, som IBM-tilgangen gør (i stedet skal brugeren kopiere og indsætte de ændrede prompter).

Den eksekverbare private prompt tillader en liste over alternative erstatninger for brugerinputtekst.

I ovenstående billede kan vi se, at brugeren af private prompter er i stand til at programmere automatiske erstatninger for tilfælde af følsomme oplysninger. I begge tilfælde, for Private Prompts og IBM-metoden, virker det usandsynligt, at en bruger med tilstrækkelig tilstedeværelse i sindet og personlig indsigt til at kurere en sådan liste rent faktisk ville have brug for dette produkt - selvom det kunne bygges op over tid, efterhånden som hændelser opstår.

I en administratorrolle kunne struktureret klassifikation fungere som en pålagt firewall eller censor-net for medarbejdere; og i et hjemmenetværk kunne det med nogle vanskelige justeringer blive et hjemligt netværksfilter for alle netværksbrugere; men i sidste ende er denne metode velsagtens overflødig, da en bruger, der kunne konfigurere dette korrekt, også kunne selvcensurere effektivt i første omgang.

ChatGPTs mening

Siden ChatGPT for nylig lancerede sin dybt forskningsværktøj For betalende brugere brugte jeg denne facilitet til at bede ChatGPT om at gennemgå relateret litteratur og give mig et 'kynisk' syn på IBMs artikel. Jeg modtog det mest defensive og nedladende svar, systemet nogensinde har givet, da jeg blev bedt om at evaluere eller analysere en ny publikation:

ChatGPT-4o har en lav mening om IBM-projektet.

Hvis brugerne ikke stoler på, at OpenAI, Google eller Anthropic håndterer deres data ansvarligt, ChatGPT poster. "Hvorfor skulle de stole på et tredjeparts softwarelag, der ligger mellem dem og AI'en? Mellemleddet i sig selv bliver et nyt fejlpunkt – potentielt logning, forkert håndtering eller endda lækage af data, før de overhovedet når LLM'en. Det løser ingenting, hvis det bare opretter en anden enhed til at udnytte brugerdata."

Denne indvending virker selvtjenstgørende og ikke anvendelig i betragtning af den historie af open source-projekter, der virkelig gavner slutbrugere gennem den fælles langsigtede indsats fra fællesskabsudviklere og bidragydere; og givet mobilenheders voksende potentiale til at køre – og endda træne – letvægts LLM'er. Bestemt i dette tilfælde er brugssagen ikke voldsomt krævende.

Dernæst savner ChatGPT med tillid pointen med at have en letvægts LLM til at give tilsyn med input til en kommerciel LLM, der umuligt kunne køres på en lokal maskine (fordi LLM'en er for stor, og at tillade lokal adgang er for risikabelt for den virksomhed, der laver den):

'Effektiv privatlivsfiltrering kræver, at man forstår inputtet, før man beslutter, hvad man skal fjerne. Hvis en mellemmand er smart nok til at genkende følsomme data (navne, adresser, økonomiske detaljer), så behandler og analyserer den allerede disse data – hvilket betyder, at den skal gemme eller undersøge netop den ting, den skal slette.

'Dette introducerer et paradoks: a) Et dumt filter (grundlæggende regex-substitution) vil være ineffektivt og gå glip af subtile privatlivsrisici. b) Et smart filter (LLM-drevet rewriter) skal behandle det fulde input, hvilket gør det lige så farligt som det originale LLM.

"Hvis du stoler nok på mellemmanden til at læse og omskrive dine input, hvorfor så ikke bare stole på selve LLM'en?"

Svaret på det sidste spørgsmål her er, at den lokale LLM er beregnet til at være helt på brugerens side, og uundgåeligt open source, med minimalt eller nul behov for netværksadgang. En tilsvarende kommerciel version, uanset hvor velment det var i starten, ville i sidste ende være sårbar over for virksomhedsskift og ændringer i servicevilkårene, hvorimod en passende open source-licens ville forhindre denne form for 'uundgåelig korruption'.

ChatGPT argumenterede yderligere for, at IBMs forslag 'bryder brugerens intention', da det kunne omfortolke en prompt til et alternativ, der påvirker dens anvendelighed. Dette er dog en meget bredere problem med hurtig desinficering, og ikke specifik for denne særlige brugssituation.

Afslutningsvis (og ignorerede forslaget om at bruge lokale LLM'er 'i stedet', hvilket er præcis, hvad IBM-artiklen faktisk foreslår), mente ChatGPT, at IBM-metoden repræsenterer en barriere for implementering på grund af 'brugerfriktionen' ved implementering af advarsels- og redigeringsmetoder i en chat.

Her kan ChatGPT have ret; men hvis der kommer et betydeligt pres på grund af yderligere offentlige hændelser, eller hvis profitten i en geografisk zone er truet af voksende regulering (og virksomheden nægter at opgive den berørte region helt), historien om forbrugerteknologi tyder på, at sikkerhedsforanstaltninger vil i sidste ende ikke længere være valgfri alligevel.

Konklusion

Vi kan ikke realistisk forvente, at OpenAI nogensinde implementerer sikkerhedsforanstaltninger af den type, der foreslås i IBM-artiklen og i det centrale koncept bag den; i hvert fald ikke effektivt.

Og bestemt ikke globalt; ligesom Apple klodser visse iPhone-funktioner i Europa, og LinkedIn har forskellige regler For at udnytte sine brugeres data i forskellige lande er det rimeligt at antage, at enhver AI-virksomhed som standard vil følge de mest profitable vilkår og betingelser, der er tolerable for den pågældende nation, hvor den opererer – i hvert tilfælde på bekostning af brugerens ret til dataprivatliv, alt efter hvad der er nødvendigt.

Først offentliggjort torsdag den 27. februar 2025

Opdateret torsdag 27. februar 2025 15:47:11 på grund af forkert Apple-relateret link – MA

Relaterede emner:LLM LLM API

Næste

Omdefinering af Xbox-spiludvikling: Hvordan Microsofts Muse transformerer spilskabelse

Gå ikke glip af

Nedbrydning af Nvidias projektcifre: Den personlige AI-supercomputer for udviklere