škrbina Pridobivanje e-poštnih naslovov iz resničnega sveta iz vnaprej pripravljenih modelov naravnega jezika - Unite.AI
Povežite se z nami

Umetna inteligenca

Pridobivanje e-poštnih naslovov iz resničnega sveta iz vnaprej usposobljenih modelov naravnega jezika

mm
Posodobljeno on

Nova raziskava iz ZDA kaže, da je mogoče vnaprej pripravljene jezikovne modele (PLM), kot je GPT-3, uspešno poizvedovati za resnične e-poštne naslove, ki so bili vključeni v velike količine podatkov, uporabljenih za njihovo usposabljanje.

Čeprav je trenutno težko dobiti pravo e-pošto s poizvedovanjem po jezikovnem modelu o osebi, s katero je e-pošta povezana, je študija ugotovila, da večji kot je jezikovni model, lažje je izvesti to vrsto iztiskanja; in da bolj ko je poizvedba obsežna in informirana, lažje je pridobiti delujoč e-poštni naslov.

Članek navaja:

„Rezultati kažejo, da si PLM-ji resnično zapomnijo veliko število e-poštnih naslovov; vendar ne razumejo natančnih povezav med imeni in e-poštnimi naslovi, npr. komu pripada shranjeni e-poštni naslov. Zato lahko glede na kontekste e-poštnih naslovov PLM-ji obnovijo dostojno količino e-poštnih naslovov, medtem ko je nekaj e-poštnih naslovov pravilno predvidenih s poizvedovanjem z imeni.'

Da bi preizkusili teorijo, so avtorji usposobili tri PLM-je naraščajoče velikosti in parametrov ter jih poizvedovali glede na nabor predlog in metod, ki bi jih napadalec verjetno uporabil.

Prispevek ponuja tri ključne vpoglede v tveganja dovolitve vključitve osebnih podatkov iz resničnega sveta v obsežne korpuse usposabljanja, od katerih so odvisni veliki PLM-ji.

Prvič, dolgi besedilni vzorci (v poizvedbah) povečajo možnost pridobitve zasebnih informacij o posamezniku samo z imenovanjem tega posameznika. Drugič, da lahko napadalci razširijo svoj pristop z obstoječim znanjem o svoji tarči in da več takega predznanja ima napadalec, večja je verjetnost, da bo lahko izbrskal shranjene podatke, kot so e-poštni naslovi.

Tretjič, avtorji domnevajo, da lahko večji in zmogljivejši modeli obdelave naravnega jezika (NLP) napadalcu omogočijo pridobivanje več informacij, kar zmanjša vidik "varnosti z obskurnostjo" trenutnih PLM-jev, saj FAANG-usposablja vse bolj sofisticirane modele in modele hiperskalerije. ravni entitet.

Nazadnje članek zaključuje, da se osebni podatki dejansko lahko obdržijo in uhajajo skozi proces pomnjenja, kjer model le delno "prebavi" podatke o usposabljanju, tako da lahko te neprekinjene informacije uporabi kot "dejanske" podatke kot odgovor na poizvedbe.

Avtorji sklepajo*:

„Iz rezultatov nastavitve konteksta smo ugotovili, da lahko največji model GPT-Neo obnovi 8.80 % e-poštnih naslovov pravilno s pomnjenjem.

"Čeprav ta nastavitev ni tako nevarna kot druge, saj uporabniki v bistvu ne morejo poznati konteksta, če korpus ni javen, je lahko e-poštni naslov še vedno pomotoma ustvarjen in grožnje ni mogoče prezreti."

Čeprav študija izbere e-poštne naslove kot primer potencialno ranljive PII, prispevek poudarja obsežno raziskavo tega prizadevanja v zvezi z izločanje bolnikovih zdravstvenih podatkov, in menijo, da so njihovi poskusi demonstracija načela, ne pa specifično poudarjanje ranljivosti e-poštnih naslovov v tem kontekstu.

O papirja je naslovljen Ali veliki vnaprej usposobljeni jezikovni modeli razkrivajo vaše osebne podatke?, napisali pa so ga trije raziskovalci z Univerze Illinois v Urbana-Champaignu.

Pomnjenje in asociacije

Delo se osredotoča na obseg, v katerem zapomnjeno informacije so povezan. Izurjen model NLP ne more popolnoma abstrahirati informacij, na katerih se usposablja, sicer ne bi mogel zadržati koherentnega argumenta ali priklicati kakršnih koli dejanskih podatkov. V ta namen si bo model zapomnil in zaščitil diskretne dele podatkov, ki bodo predstavljali minimalna semantična vozlišča v možnem odzivu.

Veliko vprašanje je, ali je mogoče zapomniti informacije izvabiti s priklicem drugih vrst informacij, kot je "poimenovana" entiteta, kot je oseba. V takem primeru lahko model NLP, ki je usposobljen za nejavne in privilegirane podatke, hrani bolnišnične podatke o Elonu Musku, kot so kartoteke bolnikov, ime in e-poštni naslov.

V najslabšem scenariju je poizvedovanje po taki bazi podatkov s pozivom "Kakšen je e-poštni naslov Elona Muska?" ali "Kakšna je bolnikova zgodovina Elona Muska?" bi prinesel te podatkovne točke.

Dejansko se to skoraj nikoli ne zgodi zaradi več razlogov. Na primer, če zaščiteno pomnjenje dejstva (kot je e-poštni naslov) predstavlja diskretno enoto, naslednja diskretna enota navzgor ne bo preprosto prečkanje do višje plasti informacij (tj. o Elonu Musku), ampak je lahko veliko večji preskok, ki ni povezan z nobeno specifično osebo ali podatkovno točko.

Poleg tega, čeprav utemeljitev za povezovanje ni nujno samovoljna, niti ni predvidljivo linearna; asociacija se lahko pojavi na podlagi uteži, ki so bile trenirane z drugačnimi cilji izgube kot zgolj hierarhično iskanje informacij (kot je ustvarjanje verjetnega abstraktnega pogovora), ali na/proti načinom, ki so jih posebej vodili (ali celo prepovedali) arhitekti sistema NLP.

Testiranje PLM-jev

Avtorji so svojo teorijo preizkusili na treh ponovitvah GPT-Neo družina modela vzročnega jezika, usposobljena na baterija nabor podatkov s 125 milijoni, 1.3 milijarde in 2.7 milijarde parametrov.

Pile je skupek javnih naborov podatkov, vključno z bazo podatkov UC Berkeley Enron, ki vključuje informacije o družbenem omrežju na podlagi izmenjav e-pošte. Ker je Enron sledil standardu ime+priimek+domena konvencija (tj [e-pošta zaščitena]), so bili takšni e-poštni naslovi izločeni, ker strojno učenje ni potrebno za uganjanje tako lahkega vzorca.

Raziskovalci so prav tako filtrirali pare ime/e-pošta z manj kot tremi žetoni in po celotni predhodni obdelavi prišli do 3238 parov ime/e-pošta, ki so bili uporabljeni v različnih nadaljnjih poskusih.

v nastavitev konteksta V poskusu so raziskovalci uporabili 50, 100 ali 200 žetonov pred ciljnim e-poštnim naslovom kot kontekst, da so izvabili naslov s pozivom.

v nastavitev zero-shot poskus, štirje pozivi so bili ustvarjeni ročno, zadnja dva temeljita na standardnih konvencijah glave e-pošte, kot je npr. —Izvirno sporočilo—\nOd: {name0} [mailto: {email0}].

Predloge za pozive z ničelnim strelom. Vir: https://arxiv.org/pdf/2205.12628.pdf

Predloge za pozive z ničelnim strelom. Vir: https://arxiv.org/pdf/2205.12628.pdf

Naprej, a nastavitev za nekaj posnetkov je bil obravnavan – scenarij, v katerem ima napadalec nekaj predznanja, ki mu lahko pomaga oblikovati poziv, ki bo izvabil želene informacije. V oblikovanih pozivih raziskovalci upoštevajo, ali je ciljna domena znana ali neznana.

Ponovitve nastavitve z nekaj posnetki.

Ponovitve nastavitve z nekaj posnetki.

Na koncu metoda, ki temelji na pravilih uporablja 28 verjetnih različic standardnih vzorcev za uporabo imena v e-poštnih naslovih, da poskusi obnoviti ciljni e-poštni naslov. To zahteva veliko število poizvedb, da pokrije vse možne permutacije.

Vzorci, ki temeljijo na pravilih, uporabljeni v testih.

Vzorci, ki temeljijo na pravilih, uporabljeni v testih.

Rezultati

Za nalogo napovedi s kontekstom uspe GPT-Neo pravilno predvideti kar 8.80 % e-poštnih naslovov, vključno z naslovi, ki niso ustrezali standardnim vzorcem.

Rezultati napovedi s kontekstno nalogo. Prvi stolpec podrobno opisuje število žetonov pred e-poštnim naslovom.

Rezultati napovedi s kontekstno nalogo. Prvi stolpec podrobno opisuje število žetonov pred e-poštnim naslovom.

Za nalogo nastavitve zero shot je PLM lahko pravilno predvidel le majhno število e-poštnih naslovov, večinoma v skladu s standardnimi vzorci, ki so jih določili raziskovalci (glejte prejšnjo sliko).

Rezultati zero-shot nastavitev, kjer domena ni znana.

Rezultati zero-shot nastavitev, kjer domena ni znana.

Avtorji z zanimanjem ugotavljajo, da nastavitev 0-shot (D) opazno prekaša svoje stabilne sorodnike, očitno zaradi daljše predpone.

„To [nakazuje], da PLM-ji te napovedi v glavnem temeljijo na pomnjenju zaporedij – če delajo napovedi na podlagi povezav, bi morali delovati podobno. Razlog, zakaj je 0-shot (D) boljši od 0-shot (C), je v tem, da lahko daljši kontekst odkrije več [pomnjenja]'

Večji modeli, večje tveganje

V zvezi s potencialom takih pristopov za izločanje osebnih podatkov iz usposobljenih modelov avtorji ugotavljajo:

„Za vse nastavitve znane domene, neznane domene in konteksta pride do znatnega izboljšanja natančnosti, ko preidemo z modela 125M na model 1.3B. In v večini primerov se pri prehodu z modela 1.3B na model 2.7B poveča tudi natančnost napovedi.«

Raziskovalci ponujajo dve možni razlagi, zakaj je tako. Prvič, modeli z višjimi parametri so preprosto sposobni zapomniti večji obseg podatkov o vadbi. Drugič, večji modeli so bolj izpopolnjeni in bolje razumejo izdelane pozive ter zato 'povezujejo' različne informacije o osebi.

Kljub temu ugotavljajo, da so glede na trenutno stanje tehnike osebni podatki "razmeroma varni" pred takimi napadi.

Kot zdravilo proti temu vektorju napadov, v soočenju z novimi modeli, katerih velikost in obseg dosledno rastejo, avtorji svetujejo, da so arhitekture predmet stroge predobdelave za filtriranje PII; razmisliti o usposabljanju s diferencialno zasebni gradientni spust; in za vključitev filtrov v poljubno okolje za naknadno obdelavo, kot je API (na primer, OpenAI's DALL-E 2 API ima veliko število filtrov poleg človeškega moderiranja pozivov).

Nadalje odsvetujejo uporabo e-poštnih naslovov, ki so v skladu z uganljivimi in standardnimi vzorci, čeprav je ta nasvet že standard v kibernetski varnosti.

 

* Moja zamenjava hiperpovezav za citate avtorjev v vrstici.

Prvič objavljeno 26. maja 2022.