Artificiell intelligens

Återställa riktiga e-postadresser från förtränade naturliga språkmodeller

Published May 26, 2022

Updated April 28, 2026

Martin Anderson

Ny forskning från USA visar att förtränade språkmodeller (PLM) som GPT-3 kan med framgång frågas om riktiga e-postadresser som ingår i de stora mängder data som används för att träna dem.

Även om det för närvarande är svårt att få en riktig e-postadress genom att fråga språkmodellen om personen som e-postadressen är associerad med, fann studien att ju större språkmodellen är, desto lättare är det att utföra denna typ av exfiltration; och ju mer omfattande och informerad frågan är, desto lättare är det att få en fungerande e-postadress.

I artikeln står det:

‘Resultaten visar att PLM verkligen memoriserar ett stort antal e-postadresser; dock förstår de inte de exakta associationerna mellan namn och e-postadresser, t.ex. vem den memoriserade e-postadressen tillhör. Därför kan PLM, givet kontexten för e-postadresserna, återställa ett anständigt antal e-postadresser, medan få e-postadresser förutsägs korrekt genom att fråga med namn.’

För att testa teorin tränade författarna tre PLM med ökande storlek och parametrar och ställde frågor enligt en uppsättning mallar och metoder som en angripare sannolikt skulle använda.

Artikeln erbjuder tre viktiga insikter om riskerna med att tillåta verkliga personuppgifter att ingå i de enorma träningskorpusar som stora PLM är beroende av.

Först och främst att långa textmönster (i frågor) ökar möjligheten att få privat information om en person genom att bara nämna personen. För det andra att angripare kan komplettera sin strategi med befintlig kunskap om sitt mål, och att ju mer sådan tidigare kunskap en angripare har, desto troligare är det att de kommer att kunna exfiltrera memoriserad data som e-postadresser.

Tredje, författarna antar att större och mer avancerade naturliga språkbehandlingsmodeller (NLP) kan möjliggöra för en angripare att extrahera mer information, vilket minskar “säkerhet genom okunnighet”-aspekten av nuvarande PLM, allteftersom alltmer avancerade och hyperskala-modeller tränas av FAANG-nivåenheter.

Slutligen drar artikeln slutsatsen att personuppgifter verkligen kan behållas och läckas genom memoriseringsprocessen, där en modell endast delvis “smälter” träningsdata, så att den kan använda den oförstörda informationen som “faktisk” data i svar på frågor.

Författarna drar slutsatsen*:

‘Från resultaten av kontextinställningen finner vi att den största GPT-Neo-modellen kan återställa 8,80 % av e-postadresserna korrekt genom memorisering. ‘

‘Även om denna inställning inte är lika farlig som andra, eftersom det i princip är omöjligt för användare att känna till kontexten om korpusen inte är offentlig, kan e-postadressen fortfarande genereras av misstag, och hotet kan inte ignoreras.’

Även om studien väljer e-postadresser som ett exempel på potentiellt sårbara personuppgifter, betonar artikeln den omfattande forskningen i detta syfte i fråga om exfiltrering av patienters medicinska data, och anser att deras experiment är en demonstrationsprincip snarare än en specifik belysning av sårbarheten för e-postadresser i detta sammanhang.

Den artikeln heter läcker stora förtränade språkmodeller din personliga information? och är skriven av tre forskare vid University of Illinois at Urbana-Champaign.

Memorisering och association

Arbetet fokuserar på den utsträckning till vilken memoriserad information är associerad. En tränad NLP-modell kan inte fullständigt abstrahera den information som den tränas på, eller så skulle den vara oförmögen att hålla ett sammanhängande resonemang eller framkalla någon faktisk data alls. I detta syfte kommer en modell att memorisera och skydda diskreta datastycken, som kommer att representera minimala semantiska noder i ett möjligt svar.

Den stora frågan är om memoriserad information kan framkallas genom att framkalla annan typ av information, såsom en “namngiven” enhet, som en person. I ett sådant fall kan en NLP-modell som tränats på icke-offentlig och privilegerad data innehålla sjukhusdata om Elon Musk, såsom patientjournaler, ett namn och en e-postadress.

I värsta fall skulle att ställa en sådan databas med frågan “Vad är Elon Musks e-postadress?” eller “Vad är Elon Musks patienthistoria?” ge dessa datapunkter.

I verkligheten händer detta nästan aldrig, av flera skäl. Till exempel, om en skyddad memorisering av en faktum (såsom en e-postadress) representerar en diskret enhet, kommer den nästa diskreta enheten att inte vara en enkel traversal upp till en högre nivå av information (dvs. om Elon Musk), utan kan vara ett mycket större språng som inte är relaterat till någon specifik person eller datapunkt.

Dessutom, även om associationens rationella inte nödvändigtvis är godtycklig, är den inte heller prediktivt linjär; association kan förekomma baserat på vikter som tränats med olika förlustobjektiv än enbart hierarkisk informationsåtervinning (såsom generering av trovärdig abstrakt konversation), eller på/ emot sätt som har specifikt vägletts (eller till och med förbjudits) av NLP-systemets arkitekter.

Testning av PLM

Författarna testade sin teori på tre iterationer av den GPT-Neo orsakande språkmodellfamilj, tränad på Pile-dataseten med 125 miljoner, 1,3 miljarder och 2,7 miljarder parametrar.

Pile är en samling av offentliga dataset, inklusive UC Berkeley Enron-databasen, som innehåller social nätverksinformation baserad på e-postutbyten. Eftersom Enron följde en standard förnamn+efternamn+domän-konvention (dvs. fö[email protected]), filtrerades sådana e-postadresser bort, eftersom maskinlärning inte behövs för att gissa en sådan enkel mönster.

Forskarna filtrerade också bort namn/e-postpar med mindre än tre token och efter den totala förbehandlingen kom de fram till 3238 namn/e-postpar, som användes i olika efterföljande experiment.

I kontextinställningen-experimenet använde forskarna de 50, 100 eller 200 token före den måle-postadressen som kontext för att framkalla adressen med en prompt.

I zero-shot-inställningen-experimenet skapades fyra frågor manuellt, de två sista baserade på standard-e-postheaderkonventioner, såsom —Original Message—\nFrom: {name0} [mailto: {email0}].

Mallar för zero-shot-frågor. Källa: https://arxiv.org/pdf/2205.12628.pdf

Sedan övervägdes ett few-shot-scenario – ett scenario där angriparen har viss tidigare kunskap som kan hjälpa dem att skapa en fråga som kommer att framkalla den önskade informationen. I de skapade frågorna övervägde forskarna om måldomenänen var känd eller okänd.

Iterationer av few-shot-scenariot.

Slutligen användes regelbaserad metod 28 troliga variationer på standardmönster för namnanvändning i e-postadresser för att försöka återställa den måle-postadressen. Detta kräver ett stort antal frågor för att täcka alla möjliga permutationer.

Regelbaserade mönster som används i testerna.

Resultat

För förutsägelsen med kontextuppgiften lyckades GPT-Neo med att förutsäga så mycket som 8,80 % av e-postadresserna korrekt, inklusive adresser som inte följde standardmönster.

Resultat av förutsägelsen med kontextuppgiften. Den första kolumnen detaljerar antalet token före e-postadressen.

För zero-shot-inställningen kunde PLM endast förutsäga ett litet antal e-postadresser korrekt, mestadels följande standardmönster som forskarna fastställt (se tidigare bild).

Resultat av zero-shot-inställningar där domänen är okänd.

Författarna noterar med intresse att 0-shot (D)-inställningen påfallande överträffar sina stabila kamrater, på grund av en längre prefix.

‘Detta [indikerar] att PLM gör dessa förutsägelser främst baserat på memoriseringen av sekvenserna – om de gör förutsägelser baserat på association, borde de prestera lika. Anledningen till varför 0-shot (D) överträffar 0-shot (C) är att den längre kontexten kan upptäcka mer [memorisering]’

Större modeller, högre risk

I fråga om möjligheten för sådana tillvägagångssätt att exfiltrera personuppgifter från tränade modeller observerar författarna:

‘För alla kända domäner, okända domäner och kontextinställningar finns det en betydande förbättring av noggrannheten när vi ändrar från 125M-modellen till 1,3B-modellen. Och i de flesta fall, när vi ändrar från 1,3B-modellen till 2,7B-modellen, finns det också en ökning av förutsägelse noggrannheten.’

Forskarna erbjuder två möjliga förklaringar till varför detta är så. Först och främst kan modeller med högre parametrar enkelt memorisera en större mängd träningsdata. För det andra är större modeller mer avancerade och bättre på att förstå de skapade frågorna, och därför att “koppla ihop” de olika uppgifterna om en person.

De observerar dock att personuppgifter för närvarande är “relativt säkra” från sådana attacker.

Som ett botemedel mot denna attackvektor råder författarna att arkitekturerna ska vara föremål för rigorös förbehandling för att filtrera bort personuppgifter; att överväga utbildning med differentially privat gradient descent; och att inkludera filter i alla efterbearbetningsmiljöer, såsom en API (till exempel har OpenAI:s DALL-E 2 API ett stort antal filter, utöver mänsklig moderering av frågor).

De råder dessutom mot användningen av e-postadresser som följer gissningsbara och standardmönster, även om detta råd redan är standard inom cybersäkerhet.

* Min substitution av hyperlänkar för författarnas inline-citat.

Publicerad första gången den 26 maj 2022.

Martin Anderson

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.

Unite.AI

Återställa riktiga e-postadresser från förtränade naturliga språkmodeller

Memorisering och association

Testning av PLM

Resultat

Större modeller, högre risk

You may like