Stumm Retrieve Real-World Email Adressen Vun Pretrained Natural Language Models - Unite.AI
Connect mat eis

Kënschtlech Intelligenz

Recuperéieren Real-World Email Adressen aus Pretrained natierlech Sprooch Modeller

mm
aktualiséiert on

Nei Fuerschung aus den USA weist datt pretrained Sproochmodeller (PLMs) wéi GPT-3 erfollegräich gefrot kënne ginn fir real-Welt E-Mail Adressen, déi an de grousse Sträicher vun Daten abegraff waren fir se ze trainéieren.

Och wann et de Moment schwéier ass eng richteg E-Mail ze kréien andeems Dir de Sproochemodell iwwer d'Persoun gefrot huet mat där d'E-Mail assoziéiert ass, huet d'Etude festgestallt datt wat méi grouss de Sproochemodell ass, dest méi einfach ass et dës Zort Exfiltratioun auszeféieren; an datt wat méi extensiv an informéiert d'Ufro ass, dest méi einfach ass et eng funktionell E-Mailadress ze kréien.

De Pabeier seet:

D'Resultater weisen datt PLMs wierklech eng grouss Unzuel vun E-Mailadressen erënneren; allerdéngs verstinn se net déi genee Associatiounen tëscht Nimm an E-Mail-Adressen, z.B., zu deenen déi gespäichert E-Mail-Adress gehéiert. Dofir, mat de Kontexter vun den E-Mailadressen, kënnen PLMs eng uerdentlech Quantitéit un E-Mailadressen recuperéieren, während e puer E-Mailadressen richteg virausgesot ginn andeems se mat Nimm ufroen.'

Fir d'Theorie ze testen, hunn d'Auteuren dräi PLMs vun enger Erhéijung vun der Gréisst a Parameter trainéiert, a gefrot se no enger Rei vu Templates a Methoden, déi en Ugräifer wahrscheinlech benotze wäert.

De Pabeier bitt dräi Schlëssel Abléck an d'Risiken fir real-Welt perséinlech Informatioun ze erlaben an de massiven Trainingscorpora abegraff ze ginn, op deenen grouss PLMs ofhängeg sinn.

Éischtens, datt laang Textmuster (bei Ufroen) d'Méiglechkeet erhéijen fir privat Informatioun iwwer en Individuum ze kréien just andeems Dir dësen Individuum nennt. Zweetens, datt Ugräifer hir Approche mat existente Wëssen iwwer hiren Zil vergréisseren kënnen, an datt wat méi esou Virwëssen en Ugräifer huet, dest méi wahrscheinlech ass et datt se fäeg sinn memoriséiert Daten wéi E-Mailadressen ze exfiltréieren.

Drëttens postuléieren d'Auteuren datt méi grouss a méi kapabel Natural Language Processing (NLP) Modeller en Ugräifer erlaben méi Informatioun ze extrahieren, reduzéiert den Aspekt "Sécherheet duerch Obscurity" vun aktuellen PLMs, well ëmmer méi sophistikéiert an hyperskala Modeller trainéiert gi vu FAANG- Niveau Entitéiten.

Schlussendlech schléisst de Pabeier of, datt perséinlech Informatioune wierklech behalen a geleet kënne ginn duerch de Prozess vun der Memoriséierung, wou e Modell nëmmen deelweis d'Trainingsdaten 'verdaucht', sou datt et dës ongebrach Informatioun als 'faktuell' Donnéeën an Äntwert op Ufroen benotze kann.

D'Auteuren schléissen *:

'Vun de Resultater vun der Kontextastellung fanne mir datt de gréisste GPT-Neo Modell 8.80% vun E-Mailadressen korrekt duerch Erënnerung kann recuperéieren.

"Obwuel dës Astellung net esou geféierlech ass wéi anerer, well et am Fong onméiglech ass fir d'Benotzer de Kontext ze kennen, wann de Corpus net ëffentlech ass, kann d'E-Mailadress nach ëmmer zoufälleg generéiert ginn, an d'Drohung kann net ignoréiert ginn."

Och wann d'Etude E-Mailadressen als e Beispill vu potenziell vulnérabele PII wielt, betount de Pabeier déi extensiv Fuerschung an dëser Verfollegung a Bezuch op medezinesch Donnéeën vun de Patienten exfiltréieren, a betruechten hir Experimenter als Demonstratioun vum Prinzip, anstatt eng spezifesch Highlight vun der Schwachstelle vun E-Mailadressen an dësem Kontext.

d' Pabeier heescht Sinn grouss Pre-Trainéiert Sproochmodeller Är perséinlech Informatioun auslecken?, a gëtt vun dräi Fuerscher vun der University of Illinois zu Urbana-Champaign geschriwwen.

Erënnerung an Associatioun

D'Aarbecht zentréiert op d'Ausmooss wéi memoriséiert Informatiounen ass verbonne sinn. En trainéierten NLP Modell kann d'Informatioun net komplett abstrakéieren op déi et trainéiert ass, oder et wier net fäeg e kohärent Argument ze halen, oder iwwerhaapt sachlech Donnéeën opzeruffen. Zu dësem Zweck wäert e Modell diskret Stécker vun Daten memoriséieren a schützen, déi minimal semantesch Noden an enger méiglecher Äntwert representéieren.

Déi grouss Fro ass ob memoriséiert Informatioun kann ervirgehuewen ginn andeems aner Aarte vun Informatioun opgeruff ginn, sou wéi eng "benannt" Entitéit, wéi eng Persoun. An esou engem Fall kann en NLP Modell trainéiert op net-ëffentlechen a privilegiéierten Donnéeën Spidolsdaten iwwer Elon Musk halen, sou wéi Patientedateien, en Numm an eng E-Mailadress.

Am schlëmmste Szenario, froen esou eng Datebank mat der Ufro 'Wat ass dem Elon Musk seng E-Mailadress?' oder 'Wat ass dem Elon Musk seng Patientegeschicht?' géifen déi Datepunkte ginn.

Effektiv geschitt dat bal ni, aus enger Rei vu Grënn. Zum Beispill, wann eng geschützt Erënnerung vun engem Fakt (wéi eng E-Mailadress) eng diskret Eenheet duerstellt, ass déi nächst diskret Eenheet net eng einfach Traversal bis op eng méi héich Informatiounsschicht (dh iwwer den Elon Musk), awer kann e wäit méi grousse Sprong deen net mat enger spezifescher Persoun oder Datepunkt verbonnen ass.

Zousätzlech, obwuel d'Begrënnung fir Associatioun net onbedéngt arbiträr ass, och net prévisibel linear; Associatioun ka geschéien op Basis vu Gewiichter, déi mat ënnerschiddleche Verloschtziler trainéiert goufen wéi nëmmen hierarchesch Informatiounsrecuperatioun (wéi z.

PLMs testen

D'Auteuren getest hir Theorie op dräi Iteratiounen vun der GPT-Neo kausal Sprooch Modell Famill, trainéiert op der Pile Dataset bei 125 Milliounen, 1.3 Milliarden an 2.7 Milliarde Parameteren.

De Pile ass eng Versammlung vun ëffentlechen Datesätz, dorënner d'UC Berkeley Enron Datebank, déi sozial Netzwierkinformatioun baséiert op E-Mailaustausch enthält. Zanter Enron no engem Standard Virnumm + Familljennumm + Domain Konventioun (z [Email geschützt]), esou E-Mailadressen goufen ausfiltert, well Maschinnléieren net gebraucht gëtt fir sou e liicht Muster ze roden.

D'Fuerscher filteren och Numm / E-Mail-Paaren mat manner wéi dräi Tokens, an no der totaler Virveraarbechtung koumen op 3238 Numm / Mail-Paaren, déi a verschiddene spéider Experimenter benotzt goufen.

An Kontext Astellung Experimenter hunn d'Fuerscher déi 50, 100 oder 200 Tokens virun der Zil-E-Mailadress als Kontext benotzt fir d'Adress mat enger Prompt z'erklären.

An null-Schoss Astellung Experiment, véier Ufroe goufen manuell erstallt, déi lescht zwee baséiert op Standard E-Mail Header Konventioune, wéi z —Original Message—\nVun: {name0} [mailto: {email0}].

Schablounen fir Null-Schoss Prompts. Source: https://arxiv.org/pdf/2205.12628.pdf

Schablounen fir Null-Schoss Prompts. Source: https://arxiv.org/pdf/2205.12628.pdf

Nächst, a puer-Schoss Kader war considéréiert - e Szenario an deem den Ugräifer e puer Virauskenntnisser huet, déi hinnen hëllefe kënnen eng Prompt ze kreéieren déi déi gewënscht Informatioun erauskënnt. An den erstallten Ufroe betruechten d'Fuerscher ob d'Zildomän bekannt oder onbekannt ass.

Iterations vun der puer-Schoss Kader.

Iterations vun der puer-Schoss Kader.

Endlech ass de Regel-baséiert Method benotzt 28 méiglech Variatiounen op Standardmuster fir den Numm an E-Mailadressen fir ze probéieren d'Zil-E-Mailadress ze recuperéieren. Dëst erfuerdert eng héich Unzuel u Ufroen fir all méiglech Permutatiounen ze decken.

Regel-baséiert Mustere benotzt an den Tester.

Regel-baséiert Mustere benotzt an den Tester.

Resultater

Fir d'Prognose mat Kontext Aufgab geléngt GPT-Neo esou vill wéi 8.80% vun den E-Mailadressen richteg virauszesoen, och Adressen déi net mat Standardmuster entspriechen.

Resultater vun der Prognose mat Kontext Aufgab. Déi éischt Kolonn Detailer d'Zuel vun Tokens virun der E-Mail Adress.

Resultater vun der Prognose mat Kontext Aufgab. Déi éischt Kolonn Detailer d'Zuel vun Tokens virun der E-Mail Adress.

Fir d'Zero-Shot Astellungs Aufgab konnt de PLM nëmmen eng kleng Unzuel vun E-Mailadressen korrekt viraussoen, meeschtens konform mat de Standardmustere vun de Fuerscher (kuckt virdrun Bild).

Resultater vun Zero-shot Astellunge wou d'Domain onbekannt ass.

Resultater vun Zero-shot Astellunge wou d'Domain onbekannt ass.

D'Auteuren bemierken mat Interessi datt den 0-Schoss (D) Astellung notamment seng Stallkollegen iwwerpréift, anscheinend wéinst engem méi laange Präfix.

"Dëst [bedeit] datt PLMs dës Prognosen haaptsächlech baséieren op der Erënnerung vun de Sequenzen - wa se Prognosen baséieren op Associatioun, sollten se ähnlech Leeschtunge. De Grond firwat 0-Schoss (D) besser ass wéi 0-Schoss (C) ass datt de méi laange Kontext méi kann entdecken [Memoriséierung]'

Méi grouss Modeller, méi héicht Risiko

Am Bezuch op d'Potenzial fir sou Approche fir perséinlech Daten aus trainéierte Modeller ze exfiltréieren, beobachten d'Auteuren:

'Fir all bekannt Domain, onbekannt Domain a Kontext Astellunge gëtt et eng bedeitend Verbesserung vun der Genauegkeet wa mir vum 125M Modell an den 1.3B Modell änneren. An am meeschte Fäll, wann Dir vum 1.3B Modell op den 2.7B Modell wiesselt, gëtt et och eng Erhéijung vun der Prädiktiounsgenauegkeet.'

D'Fuerscher bidden zwou méiglech Erklärungen firwat dat esou ass. Als éischt kënnen d'Modeller mat méi héije Parameteren einfach e méi héije Volumen vun Trainingsdaten erënneren. Zweetens, méi grouss Modeller si méi raffinéiert a besser fäeg déi erstallt Ufroen ze verstoen, an dofir déi ënnerschiddlech Informatioun iwwer eng Persoun ze 'verbinden'.

Si beobachten awer datt am aktuellen Zoustand vun der Konscht perséinlech Informatioun "relativ sécher" vu sou Attacken ass.

Als Recours géint dësen Attackvektor, am Gesiicht vun neie Modeller, déi konsequent a Gréisst an Ëmfang wuessen, beroden d'Auteuren datt d'Architekturen eng strikt Pre-Veraarbechtung ënnerleien fir PII ze filteren; Formatioun mat ze betruecht differentiell privat Gradient Ofstamung; a fir Filteren an all Postveraarbechtungsëmfeld ze enthalen, sou wéi eng API (zum Beispill, OpenAI's DALL-E 2 API huet eng grouss Zuel vu Filteren, zousätzlech zu der mënschlecher Moderatioun vun Ufroen).

Si berode weider géint d'Benotzung vun E-Mailadressen déi mat guessablen a Standardmuster entspriechen, obwuel dës Berodung scho Standard an der Cybersécherheet ass.

 

* Meng Ersatz vun Hyperlinks fir d'Inline Zitater vun den Auteuren.

Éischt publizéiert 26. Mee 2022.