Andersons vinkel
Beskytter meldinger fra LLM-datalekkasjer

Mening En interessant IBM NeurIPS 2024 innsending fra slutten av 2024 dukket opp igjen pÄ Arxiv forrige uke. Den foreslÄr et system som automatisk kan gripe inn for Ä beskytte brukere fra Ä sende inn personlig eller sensitiv informasjon i en melding nÄr de har en samtale med en Large Language Model (LLM) som f.eks. ChatGPT.

Mock-up-eksempler brukt i en brukerundersĂžkelse for Ă„ finne ut hvordan folk foretrekker Ă„ samhandle med en hurtigintervensjonstjeneste. Kilde: https://arxiv.org/pdf/2502.18509
Modellene vist ovenfor ble brukt av IBM-forskerne i en studie for Ä teste potensiell brukerfriksjon mot denne typen «forstyrrelser».
Selv om det gis lite detaljer om GUI-implementeringen, kan vi anta at slik funksjonalitet enten kan inkorporeres i en nettleserplugin kommunisere med et lokalt «brannmur»-LLM-rammeverk; eller at det kunne opprettes et program som kan koble seg direkte til (for eksempel OpenAI API, og dermed effektivt gjenskape OpenAIs eget nedlastbare frittstÄende program for ChatGPT, men med ekstra sikkerhetstiltak.
NÄr det er sagt, selvsensurerer ChatGPT selv automatisk svar pÄ spÞrsmÄl som den oppfatter Ä inneholde kritisk informasjon, for eksempel bankdetaljer:

ChatGPT nekter Ä engasjere seg med spÞrsmÄl som inneholder antatt kritisk sikkerhetsinformasjon, for eksempel bankdetaljer (detaljene i ledeteksten ovenfor er fiktive og ikke-funksjonelle). Kilde: https://chatgpt.com/
ChatGPT er imidlertid mye mer tolerant nĂ„r det gjelder ulike typer personlig informasjon â selv om det Ă„ formidle slik informasjon pĂ„ noen mĂ„te kanskje ikke er i brukerens beste interesse (i dette tilfellet kanskje av ulike Ă„rsaker knyttet til arbeid og utlevering):

Eksemplet ovenfor er fiktivt, men ChatGPT nĂžler ikke med Ă„ delta i en samtale om brukeren om et sensitivt emne som utgjĂžr en potensiell omdĂžmme- eller inntektsrisiko (eksemplet ovenfor er fullstendig fiktivt).
I tilfellet ovenfor kan det ha vÊrt bedre Ä skrive: «Hvilken betydning har en leukemidiagnose for en persons skriveevne og mobilitet?»
IBM-prosjektet identifiserer og tolker slike forespÞrsler pÄ nytt fra en «personlig» til en «generisk» holdning.

Skjema for IBM-systemet, som bruker lokale LLM-er eller NLP-baserte heuristikk for Ă„ identifisere sensitivt materiale i potensielle forespĂžrsler.
Dette forutsetter at materiale samlet inn av nettbaserte LLM-er, i denne spede fasen av publikums entusiastiske adopsjon av AI-chat, aldri vil bli brukt i verken pÄfÞlgende modeller eller senere annonseringsrammeverk som kan utnytte brukerbaserte sÞk for Ä gi potensielle resultater. mÄlrettet annonsering.
Selv om det ikke er kjent at noe slikt system eller arrangement eksisterer nÄ, var heller ikke slik funksjonalitet tilgjengelig ved begynnelsen av internett-adopsjon pÄ begynnelsen av 1990-tallet; siden da, deling av informasjon pÄ tvers av domener Ä mate personlig tilpasset annonsering har fÞrt til ulike skandaler, i tillegg til paranoia.
Derfor tyder historien pÄ at det ville vÊre bedre Ä rense LLM-spÞrsmÄlene nÄ, fÞr slike data samles inn i volum, og fÞr vÄre LLM-baserte innsendinger havner i permanente sykliske databaser og/eller modeller, eller andre informasjonsbaserte strukturer og skjemaer.
Husk meg?
En faktor som taler mot bruk av «generiske» eller rengjorte LLM-ledetekster er at muligheten til Ă„ tilpasse en dyr API-basert LLM som ChatGPT er ganske overbevisende, i hvert fall med dagens teknologiske utvikling â men dette kan innebĂŠre langsiktig eksponering av privat informasjon.
Jeg ber ofte ChatGPT om Ä hjelpe meg med Ä formulere Windows PowerShell-skript og BAT-filer for Ä automatisere prosesser, sÄ vel som andre tekniske spÞrsmÄl. For dette formÄl synes jeg det er nyttig at systemet permanent husker detaljer om maskinvaren jeg har tilgjengelig; mine eksisterende tekniske ferdigheter (eller mangel pÄ slike); og forskjellige andre miljÞfaktorer og tilpassede regler:

ChatGPT lar en bruker utvikle en «cache» av minner som vil bli brukt nÄr systemet vurderer svar pÄ fremtidige forespÞrsler.
Dette holder uunngÄelig informasjon om meg lagret pÄ eksterne servere, underlagt vilkÄr og betingelser som kan utvikle seg over tid, uten noen garanti for at OpenAI (selv om det kan vÊre en hvilken som helst annen stÞrre LLM-leverandÞr) vil respekter vilkÄrene de har satt opp.
Generelt er imidlertid kapasiteten til Ä bygge en cache med minner i ChatGPT mest nyttig pÄ grunn av begrenset oppmerksomhetsvindu av LLM-er generelt; uten langsiktig (personlig) innebygging, fÞler brukeren, frustrerende nok, at de snakker med en enhet som lider av Anterograd amnesi.
Det er vanskelig Ä si om nyere modeller etter hvert vil bli tilstrekkelig ytelsesdyktige til Ä gi nyttige svar uten behov for Ä cache minner, eller Ä lage tilpassede GPT-er som er lagret pÄ nett.
Midlertidig hukommelsestap
Selv om man kan gjÞre ChatGPT-samtaler «midlertidige», er det nyttig Ä ha chathistorikken som en referanse som kan destilleres, nÄr tiden tillater det, til en mer sammenhengende lokal oversikt, kanskje pÄ en notatplattform; men uansett kan vi ikke vite nÞyaktig hva som skjer med disse «forkastede» chattene (selv om OpenAI stater de vil ikke bli brukt til opplÊring, det stÄr ikke at de er Þdelagt), basert pÄ ChatGPT-infrastrukturen. Alt vi vet er at chatter ikke lenger vises i historikken vÄr nÄr «Midlertidige chatter» er slÄtt pÄ i ChatGPT.
Diverse nylige kontroverser tyder pĂ„ at API-baserte leverandĂžrer som OpenAI ikke nĂždvendigvis bĂžr ha ansvaret for Ă„ beskytte brukerens personvern, inkludert oppdagelsen av emergent memorering, noe som betyr at stĂžrre LLM-er er mer sannsynlig Ă„ huske noen treningseksempler i sin helhet, og Ăžker risikoen for utlevering av brukerspesifikke data â blant andre offentlige hendelser som har overbevist en mengde store selskaper, som Samsung, Til forby LLM-er for intern bedriftsbruk.
Tenk annerledes
Denne spenningen mellom den ekstreme nytten og den Ă„penbare potensielle risikoen ved LLM-er vil trenge noen oppfinnsomme lĂžsninger â og IBM-forslaget ser ut til Ă„ vĂŠre en interessant grunnleggende mal i denne linjen.

Tre IBM-baserte omformuleringer som balanserer nytteverdi mot databeskyttelse. I det laveste (rosa) bÄndet ser vi en ledetekst som er utenfor systemets evne til Ä rense pÄ en meningsfull mÄte.
IBM-tilnÊrmingen fanger opp utgÄende pakker til en LLM pÄ nettverksnivÄ, og omskriver dem etter behov fÞr originalen kan sendes inn. De ganske mer forseggjorte GUI-integrasjonene som ble sett i begynnelsen av artikkelen er bare illustrerende for hvor en slik tilnÊrming kan gÄ, hvis den er utviklet.
Uten tilstrekkelig medvirken kan det selvsagt hende at brukeren ikke forstÄr at de fÄr svar pÄ en litt endret omformulering av den opprinnelige innsendingen. Denne mangelen pÄ Äpenhet tilsvarer at et operativsystems brannmur blokkerer tilgang til et nettsted eller en tjeneste uten Ä informere brukeren, som da feilaktig kan sÞke etter andre Ärsaker til problemet.
ForespĂžrsler som sikkerhetsforpliktelser
Utsiktene til «rask inngripen» analogiserer godt med Windows OS-sikkerhet, som har utviklet seg fra et lappeteppe av (valgfritt installerte) kommersielle produkter pÄ 1990-tallet til en ikke-valgfri og strengt hÄndhevet pakke med nettverksforsvarsverktÞy som fÞlger med som standard med en Windows-installasjon, og som krever litt innsats for Ä slÄ av eller deintensivere.
Hvis rask sanering utvikler seg slik nettverksbrannmurer har gjort de siste 30 Ă„rene, kan IBM-avisens forslag tjene som en blĂ„kopi for fremtiden: Ă„ distribuere en fullstendig lokal LLM pĂ„ brukerens maskin for Ă„ filtrere utgĂ„ende meldinger rettet mot kjente LLM APIer. Dette systemet vil naturligvis trenge Ă„ integrere GUI-rammer og varsler, og gi brukere kontroll â med mindre administrative retningslinjer overstyrer det, som ofte skjer i forretningsmiljĂžer.
Forskerne gjennomfÞrte en analyse av en Äpen kildekode-versjon av Del GPT datasett for Ä forstÄ hvor ofte kontekstuelt personvern krenkes i virkelige scenarier.
Lama-3.1-405B-instruks ble brukt som en «dommermodell» for Ä oppdage brudd pÄ kontekstuell integritet. Fra et stort sett med samtaler ble et delsett av samtaler med én runde analysert basert pÄ lengde. Dommermodellen vurderte deretter konteksten, sensitiv informasjon og nÞdvendigheten av oppgavefullfÞring, noe som fÞrte til identifisering av samtaler som inneholdt potensielle kontekstuelle integritetsbrudd.
En mindre undergruppe av disse samtalene, som viste definitive kontekstuelle brudd pÄ personvernet, ble analysert videre.
Selve rammeverket ble implementert ved hjelp av modeller som er mindre enn typiske chat-agenter som ChatGPT, for Ă„ muliggjĂžre lokal distribusjon via Ollama.

Skjema for hurtigintervensjonssystemet.
De tre LLM-ene som ble evaluert var Mixtral-8x7B-Instruct-v0.1; Lama-3.1-8B-instruks, Og DeepSeek-R1-Destill-Llama-8B.
BrukerforespĂžrsler behandles av rammeverket i tre trinn: kontekstidentifikasjon; klassifisering av sensitiv informasjon, Og omformulering.
To tilnÊrminger ble implementert for klassifisering av sensitiv informasjon: dynamisk og strukturert klassifisering: dynamisk klassifisering bestemmer de essensielle detaljene basert pÄ deres bruk i en spesifikk samtale; strukturert klassifisering gir mulighet for spesifikasjon av en forhÄndsdefinert liste over sensitive attributter som alltid anses som ikke-essensielle. Modellen omformulerer forespÞrselen hvis den oppdager ikke-essensielle sensitive detaljer ved enten Ä fjerne eller omformulere dem for Ä minimere personvernrisikoen samtidig som brukervennligheten opprettholdes.
Hjemmeregler
Selv om strukturert klassifisering som konsept ikke er godt illustrert i IBM-artikkelen, er det mest beslektet med metoden «Private Data Definitions» i Private forespĂžrsler initiativ, som gir et nedlastbart frittstĂ„ende program som kan omskrive forespĂžrsler â om enn uten mulighet til Ă„ gripe direkte inn pĂ„ nettverksnivĂ„, slik IBM-tilnĂŠrmingen gjĂžr (i stedet mĂ„ brukeren kopiere og lime inn de modifiserte ledetekstene).

Den kjĂžrbare Private Prompts tillater en liste over alternative erstatninger for brukerinndatatekst.
I bildet ovenfor kan vi se at brukeren av private forespĂžrsler er i stand til Ă„ programmere automatiserte erstatninger for tilfeller av sensitiv informasjon. I begge tilfeller, for Private forespĂžrsler og IBM-metoden, virker det usannsynlig at en bruker med nok tilstedevĂŠrelse og personlig innsikt til Ă„ lage en slik liste faktisk trenger dette produktet â selv om det kan bygges opp over tid etter hvert som hendelser oppstĂ„r.
I en administratorrolle kan strukturert klassifisering fungere som en pÄlagt brannmur eller sensurnett for ansatte; og i et hjemmenettverk kan det, med noen vanskelige justeringer, bli et hjemmenettverksfilter for alle nettverksbrukere; men til syvende og sist er denne metoden uten tvil overflÞdig, siden en bruker som kunne konfigurere dette riktig, ogsÄ kan selvsensurere effektivt i utgangspunktet.
ChatGPTs mening
Siden ChatGPT nylig lanserte sin dyptgÄende forskningsverktÞy For betalende brukere brukte jeg denne funksjonen til Ä be ChatGPT om Ä gjennomgÄ relatert litteratur og gi meg et «kynisk» syn pÄ IBMs artikkel. Jeg fikk den mest defensive og nedsettende responsen systemet noensinne har gitt da jeg ble bedt om Ä evaluere eller analysere en ny publikasjon:

ChatGPT-4o har en lav oppfatning av IBM-prosjektet.
«Hvis brukere ikke stoler pĂ„ at OpenAI, Google eller Anthropic hĂ„ndterer dataene deres pĂ„ en ansvarlig mĂ„te» ChatGPT-poster. «Hvorfor skulle de stole pĂ„ et tredjeparts programvarelag som sitter mellom dem og AI-en? Mellomleddet i seg selv blir et nytt feilpunkt â potensielt logging, feilhĂ„ndtering eller til og med lekkasje av data fĂžr de i det hele tatt nĂ„r LLM. Det lĂžser ingenting hvis det bare oppretter en annen enhet for Ă„ utnytte brukerdata.»
Denne innvendingen virker selvbetjent og ikke-anvendbar, gitt den historie med Ă„pen kildekode-prosjekter som virkelig kommer sluttbrukere til gode gjennom den samordnede langsiktige innsatsen til fellesskapsutviklere og bidragsytere; og gitt det voksende potensialet til mobile enheter for Ă„ kjĂžre â og til og med trene â lette LLM-er. Gjerne i dette tilfellet er ikke brukssaken spesielt krevende.
Deretter savner ChatGPT selvsikkert poenget med Ä ha en lett LLM som gir tilsyn med input til en kommersiell LLM som umulig kunne kjÞres pÄ en lokal maskin (fordi LLM er for stor, og Ä tillate lokal tilgang er for risikabelt for selskapet som lager det):
'Effektiv personvernfiltrering krever at du forstĂ„r inndataene fĂžr du bestemmer deg for hva som skal fjernes. Hvis en mellommann er smart nok til Ă„ gjenkjenne sensitive data (navn, adresser, Ăžkonomiske detaljer), sĂ„ behandler og analyserer den allerede disse dataene â noe som betyr at den mĂ„ lagre eller undersĂžke akkurat det den skal slette.
"Dette introduserer et paradoks: a) Et dumt filter (grunnleggende regex-substitusjon) vil vÊre ineffektivt og gÄ glipp av subtile personvernrisikoer. b) Et smart filter (LLM-drevet rewriter) mÄ behandle hele inndata, noe som gjÞr det like farlig som den originale LLM.
«Hvis du stoler nok pÄ mellommannen til Ä lese og omskrive inndataene dine, hvorfor ikke bare stole pÄ selve LLM-en?»
Svaret pÄ det siste spÞrsmÄlet her er at den lokale LLM er ment Ä vÊre helt pÄ brukerens side, og uunngÄelig Äpen kildekode, med minimalt eller null behov for nettverkstilgang. En tilsvarende kommersiell versjon, uansett hvor velment det var i utgangspunktet, ville til slutt vÊre sÄrbar for bedriftsendringer og endringer i tjenestevilkÄrene, mens en passende Äpen kildekode-lisens ville forhindre denne typen «uunngÄelig korrupsjon».
ChatGPT argumenterte videre for at IBMs forslag «bryter brukerens intensjon», siden det kunne omtolke en ledetekst til et alternativ som pÄvirker nytten. Dette er imidlertid en mye bredere problem ved rask sanering, og ikke spesifikt for denne spesielle brukssaken.
Avslutningsvis (og ignorerte forslaget om Ä bruke lokale LLM-er «i stedet», som er akkurat det IBM-artikkelen faktisk foreslÄr), mente ChatGPT at IBM-metoden representerer en barriere for adopsjon pÄ grunn av «brukerfriksjonen» ved Ä implementere varslings- og redigeringsmetoder i en chat.
Her kan ChatGPT ha rett; men hvis betydelig press kommer pÄ grunn av ytterligere offentlige hendelser, eller hvis fortjeneste i en geografisk sone trues av Þkende regulering (og selskapet nekter Ä bare forlate den berÞrte regionen helt), antyder historien til forbrukerteknologi at sikkerhetstiltak vil til slutt ikke lenger vÊre valgfritt uansett.
Konklusjon
Vi kan ikke realistisk forvente at OpenAI noen gang vil implementere sikkerhetstiltak av den typen som foreslÄs i IBM-artikkelen, og i det sentrale konseptet bak den; i hvert fall ikke effektivt.
Og absolutt ikke globalt; akkurat som Apple blokker visse iPhone-funksjoner i Europa, og LinkedIn har forskjellige regler For Ă„ utnytte brukernes data i forskjellige land, er det rimelig Ă„ antyde at ethvert AI-selskap vil bruke de mest lĂžnnsomme vilkĂ„rene som er akseptable for en bestemt nasjon der det opererer â i hvert tilfelle pĂ„ bekostning av brukerens rett til datapersonvern, etter behov.
FĂžrst publisert torsdag 27. februar 2025
Oppdatert torsdag 27. februar 2025 15:47:11 pĂ„ grunn av feil Apple-relatert lenke â MA