výhonek Získávání skutečných e-mailových adres z předtrénovaných modelů přirozeného jazyka - Unite.AI
Spojte se s námi

Umělá inteligence

Získávání skutečných e-mailových adres z předtrénovaných modelů přirozeného jazyka

mm
aktualizováno on

Nový výzkum z USA ukazuje, že předtrénované jazykové modely (PLM), jako je GPT-3, lze úspěšně vyhledávat na skutečné e-mailové adresy, které byly zahrnuty do obrovského množství dat používaných k jejich trénování.

Ačkoli je v současné době obtížné získat skutečný e-mail dotazem na jazykový model osoby, se kterou je e-mail spojen, studie zjistila, že čím větší je jazykový model, tím snazší je provést tento druh exfiltrace; a že čím je dotaz obsáhlejší a informovanější, tím snazší je získat funkční e-mailovou adresu.

Článek uvádí:

„Výsledky ukazují, že PLM si skutečně zapamatují velké množství e-mailových adres; nerozumí však přesným asociacím mezi jmény a e-mailovými adresami, např. komu patří zapamatovaná e-mailová adresa. Proto vzhledem ke kontextu e-mailových adres mohou PLM obnovit slušné množství e-mailových adres, zatímco jen málo e-mailových adres je správně předpovídáno dotazem na jména.'

K otestování teorie autoři vycvičili tři PLM s rostoucí velikostí a parametry a dotazovali se na ně podle sady šablon a metod, které by útočník pravděpodobně použil.

Tento dokument nabízí tři klíčové poznatky o rizicích umožnění začlenění skutečných osobních informací do masivních školicích korpusů, na kterých závisí velké PLM.

Za prvé, že dlouhé textové vzory (v dotazech) zvyšují možnost získat soukromé informace o jednotlivci pouhým pojmenováním tohoto jednotlivce. Za druhé, že útočníci mohou rozšířit svůj přístup o stávající znalosti o svém cíli a že čím více takových předchozích znalostí útočník má, tím je pravděpodobnější, že budou schopni exfiltrovat zapamatovaná data, jako jsou e-mailové adresy.

Za třetí, autoři předpokládají, že větší a schopnější modely zpracování přirozeného jazyka (NLP) mohou útočníkovi umožnit extrahovat více informací, čímž se sníží aspekt „zabezpečení nejasností“ současných PLM, protože FAANG- entity úrovně.

A konečně článek dochází k závěru, že osobní informace lze skutečně uchovat a uniknout prostřednictvím procesu zapamatování, kdy model pouze částečně „stráví“ trénovací data, takže může tyto nepřerušené informace použít jako „faktická“ data v reakci na dotazy.

Autoři usuzují*:

„Z výsledků nastavení kontextu jsme zjistili, že největší model GPT-Neo dokáže správně obnovit 8.80 % e-mailových adres pomocí zapamatování.

"Ačkoli toto nastavení není tak nebezpečné jako ostatní, protože je v podstatě nemožné, aby uživatelé znali kontext, pokud korpus není veřejný, přesto může být e-mailová adresa náhodně vygenerována a hrozbu nelze ignorovat."

Ačkoli studie vybírá e-mailové adresy jako příklad potenciálně zranitelných PII, dokument zdůrazňuje rozsáhlý výzkum tohoto úsilí s ohledem na exfiltrace lékařských dat pacientůa jejich experimenty považují spíše za demonstraci principu než za konkrétní zdůraznění zranitelnosti e-mailových adres v tomto kontextu.

Projekt papír je s názvem Unikají velké předem vyškolené jazykové modely vaše osobní údaje?, a je napsáno třemi výzkumníky z University of Illinois v Urbana-Champaign.

Memorování a asociace

Práce se soustředí na to, do jaké míry zapamatováno informace jsou spojené. Trénovaný model NLP nemůže zcela abstrahovat informace, na kterých je trénován, nebo by nebyl schopen udržet koherentní argument nebo vůbec shrnout jakákoli faktická data. Za tímto účelem si model zapamatuje a ochrání diskrétní části dat, které budou představovat minimální sémantické uzly v možné odpovědi.

Velkou otázkou je, zda lze zapamatované informace získat vyvoláním jiných druhů informací, jako je „pojmenovaná“ entita, jako je osoba. V takovém případě může model NLP vyškolený na neveřejných a privilegovaných datech obsahovat nemocniční data o Elonu Muskovi, jako jsou záznamy o pacientech, jméno a e-mailová adresa.

V nejhorším scénáři dotazování takové databáze s výzvou 'Jaká je e-mailová adresa Elona Muska?' nebo "Jaká je historie pacienta Elona Muska?" by přineslo tyto datové body.

Ve skutečnosti se to téměř nikdy nestane, a to z mnoha důvodů. Pokud například chráněné zapamatování faktu (jako je e-mailová adresa) představuje samostatnou jednotku, další samostatná jednotka nebude jednoduchým přechodem do vyšší vrstvy informací (např. o Elonu Muskovi), ale může být mnohem větší skok, který nesouvisí s žádnou konkrétní osobou nebo datovým bodem.

Navíc, ačkoli zdůvodnění asociace není nutně libovolné, ani není předvídatelně lineární; asociace může nastat na základě vah, které byly trénovány s jinými cíli ztráty, než je pouhé hierarchické získávání informací (jako je generování věrohodné abstraktní konverzace), nebo způsoby/proti způsobům, které byly specificky vedeny (nebo dokonce zakázány) architekty systému NLP.

Testování PLM

Autoři testovali svou teorii na třech iteracích GPT-Neo kauzální jazykový model rodina, vyškolený na Hromada datový soubor na 125 milionů, 1.3 miliardy a 2.7 miliardy parametrů.

The Pile je soubor veřejných datových sad, včetně databáze UC Berkeley Enron, která obsahuje informace o sociálních sítích založené na e-mailových výměnách. Protože Enron dodržoval standard jméno+příjmení+doména konvence (tj [chráněno e-mailem]), byly takové e-mailové adresy odfiltrovány, protože strojové učení není potřeba k uhodnutí tak snadného vzoru.

Výzkumníci také odfiltrovali páry jméno/e-mail s méně než třemi tokeny a po celkovém předběžném zpracování dospěli k 3238 párům jméno/e-mail, které byly použity v různých následných experimentech.

v kontextové nastavení V experimentu výzkumníci použili 50, 100 nebo 200 tokenů předcházejících cílové e-mailové adrese jako kontext k vyvolání adresy pomocí výzvy.

v nastavení nulového výstřelu experimentu byly čtyři výzvy vytvořeny ručně, poslední dvě na základě standardních konvencí hlaviček e-mailů, jako je např —Původní zpráva —\nOd: {name0} [mailto: {email0}].

Šablony pro výzvy k nulovému výstřelu. Zdroj: https://arxiv.org/pdf/2205.12628.pdf

Šablony pro výzvy k nulovému výstřelu. Zdroj: https://arxiv.org/pdf/2205.12628.pdf

Dále, nastavení několika ran byl zvažován – scénář, ve kterém má útočník určité předchozí znalosti, které mu mohou pomoci vytvořit výzvu, která vyvolá požadované informace. Ve vytvořených výzvách vědci zvažují, zda je cílová doména známá nebo neznámá.

Iterace nastavení několika snímků.

Iterace nastavení několika snímků.

Konečně, metoda založená na pravidlech používá 28 pravděpodobných variant standardních vzorů pro použití jména v e-mailových adresách, aby se pokusil obnovit cílovou e-mailovou adresu. To vyžaduje vysoký počet dotazů k pokrytí všech možných permutací.

Vzory založené na pravidlech používané v testech.

Vzory založené na pravidlech používané v testech.

výsledky

U úlohy predikce s kontextem se GPT-Neo podařilo správně předpovědět až 8.80 % e-mailových adres, včetně adres, které neodpovídaly standardním vzorům.

Výsledky predikce s kontextovou úlohou. První sloupec uvádí počet tokenů před e-mailovou adresou.

Výsledky predikce s kontextovou úlohou. První sloupec uvádí počet tokenů před e-mailovou adresou.

Pro úkol nastavení zero-shot byl PLM schopen správně předpovědět pouze malý počet e-mailových adres, většinou v souladu se standardními vzory stanovenými výzkumníky (viz předchozí obrázek).

Výsledky nastavení zero-shot, kde je doména neznámá.

Výsledky nastavení zero-shot, kde je doména neznámá.

Autoři se zájmem poznamenávají, že nastavení 0-shot (D) výrazně překonává své stájové kolegy, zřejmě kvůli delší předponě.

„To [naznačuje], že PLM provádějí tyto předpovědi hlavně na základě zapamatování sekvencí – pokud provádějí předpovědi na základě asociace, měly by fungovat podobně. Důvod, proč 0-shot (D) překonává 0-shot (C), je ten, že delší kontext může objevit více [zapamatování]'

Větší modely, vyšší riziko

Pokud jde o potenciál takových přístupů k exfiltraci osobních údajů z trénovaných modelů, autoři pozorují:

„U všech nastavení známé domény, neznámé domény a kontextu došlo k výraznému zlepšení přesnosti, když přejdeme z modelu 125M na model 1.3B. A ve většině případů se při přechodu z modelu 1.3B na model 2.7B také zvýší přesnost předpovědi.'

Vědci nabízejí dvě možná vysvětlení, proč tomu tak je. Za prvé, modely s vyššími parametry jsou jednoduše schopny zapamatovat si větší objem tréninkových dat. Zadruhé, větší modely jsou propracovanější a lépe chápou vytvořené výzvy, a proto „spojují“ nesourodé informace o osobě.

Nicméně poznamenávají, že za současného stavu techniky jsou osobní informace před takovými útoky „relativně bezpečné“.

Jako prostředek proti tomuto útočnému vektoru autoři doporučují, aby tváří v tvář novým modelům, které neustále rostou co do velikosti a rozsahu, byly architektury podrobeny přísnému předběžnému zpracování pro odfiltrování PII; zvážit trénink s diferencovaně soukromý gradientní sestup; a zahrnout filtry do jakéhokoli prostředí následného zpracování, jako je API (například API DALL-E 2 OpenAI obsahuje kromě lidského moderování výzev velké množství filtrů).

Dále doporučují nepoužívat e-mailové adresy, které odpovídají hádatelným a standardním vzorům, ačkoli tato rada je již standardní v kybernetické bezpečnosti.

 

* Moje náhrada hypertextových odkazů za vložené citace autorů.

Poprvé publikováno 26. května 2022.