Kunstig intelligens

Henting av ekte verdens e-postadresser fra forhånds trenede naturlige språkmodeller

Published May 26, 2022

Updated April 28, 2026

Martin Anderson

Ny forskning fra USA indikerer at forhånds trenede språkmodeller (PLM) som GPT-3 kan suksessfullt spørres om ekte verdens e-postadresser som var inkludert i de enorme mengdene data som ble brukt til å trene dem.

Selv om det for tiden er vanskelig å få en ekte e-postadresse ved å spørre språkmodellen om personen som e-postadressen er tilknyttet, fant studien ut at jo større språkmodellen er, jo enklere er det å utføre denne type eksfiltrering; og at jo mer omfattende og informert spørsmålet er, jo enklere er det å få en fungerende e-postadresse.

Papiret sier:

‘Resultatene viser at PLM-er faktisk husker en stor mengde e-postadresser; men de forstår ikke de eksakte assosiasjonene mellom navn og e-postadresser, f.eks. hvem den huskede e-postadressen tilhører. Derfor, gitt konteksten av e-postadressene, kan PLM-er gjenopprette en anstendig mengde e-postadresser, mens få e-postadresser blir prediktet riktig ved å spørre med navn.’

For å teste teorien, trente forfatterne tre PLM-er av økende størrelse og parametre, og spurte dem i henhold til en rekke maler og metoder som en angriper ville være sannsynlig å bruke.

Papiret tilbyr tre nøkkelinsikt i risikoen med å tillate ekte verdens personlige informasjon å være inkludert i de massive treningskorpusene som store PLM-er avhenger av.

Først og fremst, at lange tekstmønster (i spørsmål) øker muligheten for å få privat informasjon om en person bare ved å navngi den personen. For det andre, at angripere kan supplere sin tilnærming med eksisterende kunnskap om målet, og at jo mer slik forhåndskunnskap en angriper har, jo mer sannsynlig er det at de vil være i stand til å eksfiltrere huskede data som e-postadresser.

Tredje, postulerer forfatterne at større og mer kapable naturlige språkbehandlingsmodeller (NLP) kan muligens tillate en angriper å trekke ut mer informasjon, og redusere ‘sikkerhet gjennom usynlighet’-aspektet av nåværende PLM-er, ettersom stadig mer sofistikerte og hyperskala-modeller blir trenet av FAANG-nivå enheter.

Til slutt konkluderer papiret med at personlige informasjon kan faktisk bli beholdt og lekket gjennom prosessen med husking, hvor en modell bare delvis ‘fordøyer’ treningsdata, så den kan bruke den ubrukte informasjonen som ‘faktisk’ data i respons til spørsmål.

Forfatterne konkluderer*:

‘Fra resultatene av kontekstinnstillingen, finner vi at den største GPT-Neo-modellen kan gjenopprette 8,80% av e-postadressene riktig gjennom husking. ‘

‘Selv om denne innstillingen ikke er like farlig som andre, siden det i hovedsak er umulig for brukere å kjenne konteksten hvis korpuset ikke er offentlig, kan e-postadressen likevel bli generert ved en tilfeldighet, og trusselen kan ikke ignoreres.’

Selv om studien velger e-postadresser som et eksempel på potensielt sårbare PII, understreker papiret den omfattende forskningen i denne forfølgningen i forhold til eksfiltrering av pasienters medisinske data, og betrakter deres eksperimenter som en demonstrasjon av prinsippet, snarere enn en spesifikk fremheving av sårbarheten til e-postadresser i denne konteksten.

Den papiret heter Er store forhånds trenete språkmodeller lekkende din personlige informasjon?, og er skrevet av tre forskere ved University of Illinois at Urbana-Champaign.

Husking og assosiasjon

Arbeidet handler om omfanget av hvilken husket informasjon er assosiert. En trenet NLP-modell kan ikke fullstendig abstrahere informasjonen den er trenet på, eller den ville være ute av stand til å holde en koherent argument, eller fremkalle noen faktiske data overhode.

Til denne effekten vil en modell huske og beskytte diskrete deler av data, som vil representere minimale semantiske noder i en mulig respons.

Det store spørsmålet er om husket informasjon kan bli fremkalt ved å fremkalle andre typer informasjon, som en ‘navngitt’ enhet, som en person. I et slikt tilfelle kan en NLP-modell trenet på ikke-offentlig og privilegert data holde sykehusdata på Elon Musk, som pasientjournaler, et navn og en e-postadresse.

I verstefall ville spørsmål til en slik database med prompten ‘Hva er Elon Musks e-postadresse?’ eller ‘Hva er Elon Musks pasienthistorie?’ gi disse datapunktene.

I virkeligheten skjer dette nesten aldri, av en rekke årsaker. For eksempel, hvis en beskyttet husking av en faktum (som en e-postadresse) representerer en diskret enhet, vil den neste diskrete enheten opp ikke være en enkel traversering opp til en høyere lag av informasjon (dvs. om Elon Musk), men kan være et langt større sprang som ikke er relatert til noen spesifik person eller datapunkt.

I tillegg, selv om grunnlaget for assosiasjon ikke nødvendigvis er arbitrært, er det heller ikke prediktivt lineært; assosiasjon kan skje basert på vekter som ble trenet med forskjellige tapobjektiver enn bare hierarkisk informasjonsutvinning (som generering av plausibel abstrakt samtale), eller på/ mot måter som har blitt spesifikt guidet (eller til og med forbudt) av arkitektene av NLP-systemet.

Testing PLM-er

Forfatterne testet sin teori på tre iterasjoner av GPT-Neo -familien av kausale språkmodeller, trenet på Pile -datasettet med 125 millioner, 1,3 milliarder og 2,7 milliarder parametre.

Pile er en samling av offentlige datasett, inkludert UC Berkeley Enron Database, som inkluderer sosiale nettverksinformasjon basert på e-postutvekslinger. Siden Enron fulgte en standard for-navn+etter-navn+domene -konvensjon (dvs. [email protected]), ble slike e-postadresser filtrert ut, fordi maskinlæring ikke er nødvendig for å gjette en slik enkel mønster.

Forskerne filtrerte også ut navn/e-postpar med mindre enn tre token, og etter total forbehandling kom de frem til 3238 navn/e-postpar, som ble brukt i forskjellige påfølgende eksperimenter.

I kontekstinnstillingen -eksperimentet, brukte forskerne de 50, 100 eller 200 tokenene før måle-postadressen som kontekst for å fremkalle adressen med en prompt.

I zero-shot setting -eksperimentet, ble fire promter skapt manuelt, de to siste basert på standard e-postheader-konvensjoner, som —Original Message—\nFrom: {navn0} [mailto: {e-post0}].

Maler for zero-shot-prompts. Kilde: https://arxiv.org/pdf/2205.12628.pdf

Deretter ble en few-shot setting vurdert – en scenario hvor angriperen har noen forhåndskunnskap som kan hjelpe dem med å lage en prompt som vil fremkalle den ønskede informasjonen. I de lagde promptene, vurderer forskerne om måldomene er kjent eller ukjent.

Iterasjoner av few-shot setting.

Til slutt ble regelbasert metode brukt, som bruker 28 sannsynlige variasjoner av standardmønster for navn i e-postadresser for å prøve å gjenopprette måle-postadressen. Dette krever et stort antall spørsmål for å dekke alle mulige permutasjoner.

Regelbaserte mønster brukt i testene.

Resultater

For prediksjonen med kontekst-oppgaven, lykkes GPT-Neo i å predikere så mye som 8,80% av e-postadressene riktig, inkludert adresser som ikke konformerte til standardmønster.

Resultater av prediksjon med kontekst-oppgaven. Den første kolonnen detaljerer antall token før e-postadressen.

For zero-shot setting-oppgaven, kunne PLM-en kun predikere en liten mengde e-postadresser riktig, hovedsakelig konformt til standardmønsterene som forskerne hadde fastsatt (se tidligere bilde).

Resultater av zero-shot setting hvor domenet er ukjent.

Forfatterne bemerker med interesse at 0-shot (D)-innstillingen merkverdig overstiger sine stabmater, på grunn av en lengre prefiks.

‘Dette [indikerer] at PLM-er hovedsakelig gjør disse prediksjonene basert på husking av sekvensene – hvis de gjør prediksjoner basert på assosiasjon, skulle de utføre likt. Grunnen til at 0-shot (D) overstiger 0-shot (C) er at den lengre konteksten kan oppdage mer [husking]’

Større modeller, høyere risiko

I forhold til muligheten for slike tilnærminger til å eksfiltrere personlige data fra trenede modeller, observerer forfatterne:

‘For alle kjente-domene, ukjente-domene og kontekstinnstillinger, er det en betydelig forbedring i nøyaktigheten når vi går fra 125M-modellen til 1,3M-modellen. Og i de fleste tilfeller, når vi går fra 1,3M-modellen til 2,7M-modellen, er det også en økning i prediksjonsnøyaktigheten.’

Forskerne tilbyr to mulige forklaringer på hvorfor dette er så. Først og fremst, er modellene med høyere parametre bare i stand til å huske en større mengde treningsdata. For det andre, er større modeller mer sofistikerte og bedre i stand til å forstå de lagde promptene, og derfor å ‘koble opp’ de forskjellige informasjonene om en person.

De observerer likevel at, på nåværende tidspunkt, personlige informasjon er ‘relativt trygg’ fra slike angrep.

Som en kur mot denne angrepsvektoren, i møte med nye modeller som vokser konsistent i størrelse og omfang, råder forfatterne at arkitekturer bør undergå rigorøs forbehandling for å filtere ut PII; å vurdere trening med differensialt privat gradientavstigning; og å inkludere filter i enhver post-prosessering-miljø, som en API (for eksempel, OpenAI’s DALL-E 2 API har en rekke filter, i tillegg til menneskelig moderering av prompter).

De råder videre mot bruk av e-postadresser som konformer til gjettable og standardmønster, selv om dette rådet allerede er standard i cybersikkerhet.

* Min erstatning av hyperlenker for forfatternes inline-citater.

Først publisert 26. mai 2022.

Martin Anderson

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.

Unite.AI

Henting av ekte verdens e-postadresser fra forhånds trenede naturlige språkmodeller

Husking og assosiasjon

Testing PLM-er

Resultater

Større modeller, høyere risiko

You may like