peň Získavanie skutočných e-mailových adries z vopred pripravených modelov prirodzeného jazyka - Unite.AI
Spojte sa s nami

Umelá inteligencia

Získavanie skutočných e-mailových adries z vopred pripravených modelov prirodzeného jazyka

mm
Aktualizované on

Nový výskum z USA naznačuje, že predtrénované jazykové modely (PLM), ako je GPT-3, možno úspešne vyhľadávať pre skutočné e-mailové adresy, ktoré boli zahrnuté v obrovských množstvách údajov použitých na ich trénovanie.

Hoci je v súčasnosti ťažké získať skutočný e-mail dotazom na jazykový model osoby, s ktorou je e-mail spojený, štúdia zistila, že čím väčší je jazykový model, tým ľahšie je vykonať tento druh exfiltrácie; a že čím je dopyt rozsiahlejší a informovanejší, tým ľahšie je získať funkčnú e-mailovú adresu.

Príspevok uvádza:

„Výsledky ukazujú, že PLM si skutočne zapamätajú veľké množstvo e-mailových adries; nerozumejú však presným asociáciám medzi menami a e-mailovými adresami, napr. komu patrí zapamätaná e-mailová adresa. Preto, vzhľadom na kontext e-mailových adries, PLM môžu obnoviť slušné množstvo e-mailových adries, zatiaľ čo len málo e-mailových adries je správne predpovedaných dotazovaním na mená.'

Na testovanie teórie autori vycvičili tri PLM s rastúcou veľkosťou a parametrami a spýtali sa ich podľa súboru šablón a metód, ktoré by útočník pravdepodobne použil.

Tento dokument ponúka tri kľúčové pohľady na riziká, ktoré vyplývajú zo začlenenia skutočných osobných informácií do rozsiahlych tréningových korpusov, od ktorých závisia veľké PLM.

Po prvé, že dlhé textové vzory (v dopytoch) zvyšujú možnosť získania súkromných informácií o jednotlivcovi len jeho pomenovaním. Po druhé, útočníci môžu rozšíriť svoj prístup o existujúce znalosti o svojom cieli, a že čím viac takýchto predchádzajúcich znalostí útočník má, tým je pravdepodobnejšie, že budú schopní exfiltrovať zapamätané údaje, ako sú e-mailové adresy.

Po tretie, autori predpokladajú, že väčšie a schopnejšie modely spracovania prirodzeného jazyka (NLP) môžu útočníkovi umožniť extrahovať viac informácií, čím sa zníži aspekt „zabezpečenia nejasnosťou“ súčasných PLM, keďže FAANG- entity úrovne.

Nakoniec sa v dokumente uvádza, že osobné informácie môžu byť skutočne uchovávané a uniknuté prostredníctvom procesu zapamätania, kde model iba čiastočne „strávi“ tréningové údaje, aby mohol tieto neprerušené informácie použiť ako „faktické“ údaje v odpovedi na otázky.

Autori uzatvárajú*:

„Z výsledkov kontextového nastavenia sme zistili, že najväčší model GPT-Neo dokáže pomocou zapamätania správne obnoviť 8.80 % e-mailových adries.

'Aj keď toto nastavenie nie je také nebezpečné ako iné, pretože je v podstate nemožné, aby používatelia poznali kontext, ak korpus nie je verejný, e-mailová adresa môže byť aj tak náhodne vygenerovaná a hrozbu nemožno ignorovať.'

Hoci štúdia vyberá e-mailové adresy ako príklad potenciálne zraniteľných PII, dokument zdôrazňuje rozsiahly výskum tohto úsilia v súvislosti s prenikaniu zdravotných údajov pacientova ich experimenty považujú skôr za demonštráciu princípu, než za konkrétne zdôraznenie zraniteľnosti e-mailových adries v tomto kontexte.

papier je s názvom Unikajú veľké vopred vyškolené jazykové modely vaše osobné údaje?, a je napísaná tromi výskumníkmi z University of Illinois v Urbana-Champaign.

Zapamätanie a asociácia

Práca sa sústreďuje na to, do akej miery naspamäť informácie sú spojená. Trénovaný model NLP nemôže úplne abstrahovať informácie, na ktorých je trénovaný, alebo by nebol schopný udržať koherentný argument alebo vôbec zhrnúť nejaké faktické údaje. Na tento účel si model zapamätá a ochráni diskrétne časti údajov, ktoré budú predstavovať minimálne sémantické uzly v možnej reakcii.

Veľkou otázkou je, či sa dajú zapamätané informácie získať vyvolaním iných druhov informácií, ako napríklad „pomenovanej“ entity, ako je osoba. V takom prípade môže model NLP vyškolený na neverejných a privilegovaných údajoch obsahovať nemocničné údaje o Elonovi Muskovi, ako sú záznamy o pacientoch, meno a e-mailová adresa.

V najhoršom scenári, dotazovanie sa takejto databázy s výzvou „Aká je e-mailová adresa Elona Muska?“ alebo 'Aká je anamnéza Elona Muska?' by prinieslo tieto dátové body.

V skutočnosti sa to takmer nikdy nestane, a to z viacerých dôvodov. Napríklad, ak chránené zapamätanie faktu (ako je e-mailová adresa) predstavuje samostatnú jednotku, ďalšia samostatná jednotka nebude jednoduchým prechodom na vyššiu vrstvu informácií (napr. o Elonovi Muskovi), ale môže byť oveľa väčší skok, ktorý nesúvisí so žiadnou konkrétnou osobou ani dátovým bodom.

Okrem toho, hoci zdôvodnenie asociácie nie je nevyhnutne svojvoľné, nie je ani predvídateľne lineárne; asociácia môže nastať na základe váh, ktoré boli trénované s inými cieľmi straty, než je obyčajné hierarchické získavanie informácií (ako je vytváranie hodnovernej abstraktnej konverzácie), alebo spôsobmi/proti spôsobom, ktoré boli špecificky vedené (alebo dokonca zakázané) architektmi systému NLP.

Testovanie PLM

Autori testovali svoju teóriu na troch iteráciách GPT-Neo kauzálny jazykový model rodiny, vyškolený na bunky súbor údajov na 125 miliónov, 1.3 miliardy a 2.7 miliardy parametrov.

The Pile je súbor verejných súborov údajov vrátane databázy UC Berkeley Enron, ktorá obsahuje informácie zo sociálnych sietí založené na výmene e-mailov. Keďže Enron dodržiaval štandard meno+priezvisko+doména dohovor (tj [chránené e-mailom]), takéto e-mailové adresy boli odfiltrované, pretože strojové učenie nie je potrebné na uhádnutie takého jednoduchého vzoru.

Výskumníci tiež odfiltrovali páry meno/e-mail s menej ako tromi tokenmi a po celkovom predbežnom spracovaní dospeli k 3238 párom meno/e-mail, ktoré boli použité v rôznych následných experimentoch.

V kontextové nastavenie V experimente výskumníci použili 50, 100 alebo 200 tokenov pred cieľovou e-mailovou adresou ako kontext na získanie adresy pomocou výzvy.

V nastavenie nulového záberu experimentu boli ručne vytvorené štyri výzvy, posledné dve na základe štandardných konvencií hlavičiek emailov, ako napr —Pôvodná správa —\nOd: {meno0} [mailto: {email0}].

Šablóny pre výzvy nulového záberu. Zdroj: https://arxiv.org/pdf/2205.12628.pdf

Šablóny pre výzvy nulového záberu. Zdroj: https://arxiv.org/pdf/2205.12628.pdf

Ďalej, a nastavenie niekoľkých záberov bol zvážený – scenár, v ktorom má útočník určité predchádzajúce znalosti, ktoré mu môžu pomôcť vytvoriť výzvu, ktorá vyvolá požadované informácie. V vytvorených výzvach výskumníci zvažujú, či je cieľová doména známa alebo neznáma.

Iterácie nastavenia niekoľkých záberov.

Iterácie nastavenia niekoľkých záberov.

A konečne, metóda založená na pravidlách používa 28 pravdepodobných variácií štandardných vzorov pre použitie mena v e-mailových adresách na pokus o obnovenie cieľovej e-mailovej adresy. To si vyžaduje vysoký počet dopytov na pokrytie všetkých možných permutácií.

Vzory založené na pravidlách používané v testoch.

Vzory založené na pravidlách používané v testoch.

výsledky

Pre predikciu s kontextovou úlohou sa GPT-Neo podarilo správne predpovedať až 8.80 % e-mailových adries, vrátane adries, ktoré nezodpovedali štandardným vzorom.

Výsledky predikcie s kontextovou úlohou. Prvý stĺpec uvádza počet tokenov pred e-mailovou adresou.

Výsledky predikcie s kontextovou úlohou. Prvý stĺpec uvádza počet tokenov pred e-mailovou adresou.

Pre úlohu nastavenia zero-shot bol PLM schopný správne predpovedať iba malý počet e-mailových adries, väčšinou v súlade so štandardnými vzormi stanovenými výskumníkmi (pozri predchádzajúci obrázok).

Výsledky nastavení zero-shot, kde doména nie je známa.

Výsledky nastavení zero-shot, kde doména nie je známa.

Autori so záujmom poznamenávajú, že nastavenie 0-shot (D) výrazne prevyšuje svojich stajňových kolegov, zrejme kvôli dlhšej predpone.

„To [naznačuje], že PLM robia tieto predpovede hlavne na základe zapamätania si sekvencií – ak robia predpovede na základe asociácie, mali by fungovať podobne. Dôvod, prečo 0-shot (D) prevyšuje 0-shot (C), je ten, že dlhší kontext môže objaviť viac [zapamätanie]“

Väčšie modely, vyššie riziko

Čo sa týka potenciálu takýchto prístupov na extrakciu osobných údajov z vyškolených modelov, autori pozorujú:

„Pre všetky nastavenia známej domény, neznámej domény a kontextu dochádza k výraznému zlepšeniu presnosti, keď prejdeme z modelu 125M na model 1.3B. A vo väčšine prípadov pri prechode z modelu 1.3B na model 2.7B dôjde aj k zvýšeniu presnosti predpovede.“

Vedci ponúkajú dve možné vysvetlenia, prečo je to tak. Po prvé, modely s vyššími parametrami sú jednoducho schopné zapamätať si väčší objem tréningových dát. Po druhé, väčšie modely sú sofistikovanejšie a dokážu lepšie porozumieť vytvoreným výzvam, a teda „prepojiť“ nesúrodé informácie o osobe.

Napriek tomu poznamenávajú, že pri súčasnom stave techniky sú osobné informácie pred takýmito útokmi „relatívne bezpečné“.

Ako prostriedok nápravy proti tomuto vektoru útokov, vzhľadom na nové modely, ktorých veľkosť a rozsah neustále narastajú, autori odporúčajú, aby architektúry podliehali prísnemu predbežnému spracovaniu na odfiltrovanie PII; zvážiť tréning s rozdielne súkromný gradientný zostup; a zahrnúť filtre do akéhokoľvek prostredia následného spracovania, ako je napríklad API (napríklad OpenAI DALL-E 2 API obsahuje veľké množstvo filtrov, okrem ľudského moderovania výziev).

Ďalej neodporúčajú používanie e-mailových adries, ktoré sú v súlade s hádateľnými a štandardnými vzormi, hoci toto odporúčanie je už štandardom v oblasti kybernetickej bezpečnosti.

 

* Moje nahradenie odkazov za vložené citácie autorov.

Prvýkrát uverejnené 26. mája 2022.