Inteligjenca artificiale

Marrja e adresave të emailit të botës reale nga modelet e gjuhëve natyrore të paratrajnuara

Përditësuar on Dhjetor 9, 2022

Hulumtimi i ri nga SHBA tregon se modelet e gjuhëve të trajnuara paraprakisht (PLM) si GPT-3 mund të kërkohen me sukses për adresat e emailit të botës reale që u përfshinë në një gamë të gjerë të të dhënave të përdorura për t'i trajnuar ato.

Megjithëse aktualisht është e vështirë të marrësh një email të vërtetë duke pyetur modelin gjuhësor për personin me të cilin lidhet emaili, studimi zbuloi se sa më i madh të jetë modeli i gjuhës, aq më e lehtë është kryerja e këtij lloji të eksfiltrimit; dhe se sa më i gjerë dhe i informuar pyetja, aq më e lehtë është të marrësh një adresë emaili funksionale.

Në punim thuhet:

'Rezultatet tregojnë se PLM-të me të vërtetë memorizojnë një numër të madh adresash emaili; megjithatë, ata nuk i kuptojnë lidhjet e sakta midis emrave dhe adresave të emailit, p.sh. kujt i përket adresa e emailit e memorizuar. Prandaj, duke pasur parasysh kontekstet e adresave të emailit, PLM-të mund të rikuperojnë një sasi të mirë adresash emaili, ndërkohë që disa adresa emaili parashikohen saktë duke pyetur me emra.'

Për të testuar teorinë, autorët trajnuan tre PLM me madhësi dhe parametra në rritje, dhe i pyetën ato sipas një grupi shabllonesh dhe metodash që një sulmues ka të ngjarë të përdorë.

Dokumenti ofron tre njohuri kryesore mbi rreziqet e lejimit të përfshirjes së informacionit personal të botës reale në korpuset masive të trajnimit nga të cilat varen PLM-të e mëdha.

Së pari, se modelet e teksteve të gjata (në pyetje) rrisin mundësinë e marrjes së informacionit privat për një individ vetëm duke e emërtuar atë individ. Së dyti, që sulmuesit mund të shtojnë qasjen e tyre me njohuritë ekzistuese në lidhje me objektivin e tyre dhe se sa më shumë njohuri të tilla paraprake të ketë një sulmues, aq më shumë ka të ngjarë që ata të jenë në gjendje të nxjerrin të dhëna të memorizuara si adresat e emailit.

Së treti, autorët supozojnë se modelet më të mëdha dhe më të afta të Përpunimit të Gjuhës Natyrore (NLP) mund t'i mundësojnë një sulmuesi të nxjerrë më shumë informacion, duke reduktuar aspektin "siguri nga errësirë" e PLM-ve aktuale, pasi modelet gjithnjë e më të sofistikuara dhe në shkallë të lartë trajnohen nga FAANG- entitete të nivelit.

Së fundi, punimi arrin në përfundimin se informacioni personal me të vërtetë mund të ruhet dhe të rrjedhë përmes procesit të memorizimit, ku një model "tret" vetëm pjesërisht të dhënat e trajnimit, në mënyrë që të mund ta përdorë atë informacion të pandërprerë si të dhëna "faktike" në përgjigje të pyetjeve.

Autorët përfundojnë*:

Nga rezultatet e cilësimeve të kontekstit, ne zbulojmë se modeli më i madh GPT-Neo mund të rikuperojë saktë 8.80% të adresave të emailit përmes memorizimit.

"Megjithëse ky cilësim nuk është aq i rrezikshëm sa të tjerët pasi është në thelb e pamundur për përdoruesit të dinë kontekstin nëse korpusi nuk është publik, adresa e emailit mund të gjenerohet ende aksidentalisht dhe kërcënimi nuk mund të injorohet."

Megjithëse studimi zgjedh adresat e emailit si një shembull të PII potencialisht të cenueshme, dokumenti thekson kërkimin e gjerë në këtë kërkim në lidhje me duke eksfiltruar të dhënat mjekësore të pacientëve, dhe i konsiderojnë eksperimentet e tyre një demonstrim të parimit, dhe jo një theksim specifik të cenueshmërisë së adresave të emailit në këtë kontekst.

La letër titullohet A po nxjerrin informacionin tuaj personal modele të mëdha gjuhësore të para-trajnuara?, dhe është shkruar nga tre studiues në Universitetin e Illinois në Urbana-Champaign.

Memorizimi dhe shoqërimi

Puna përqendrohet në masën në të cilën të memorizuara informacioni është lidhur. Një model i trajnuar NLP nuk mund të abstragojë plotësisht informacionin mbi të cilin është trajnuar, ose nuk do të ishte në gjendje të mbajë një argument koherent ose të mbledhë fare të dhëna faktike. Për këtë qëllim, një model do të mësojë përmendësh dhe do të mbrojë pjesë diskrete të të dhënave, të cilat do të përfaqësojnë nyje minimale semantike në një përgjigje të mundshme.

Pyetja e madhe është nëse informacioni i memorizuar mund të nxirret duke mbledhur lloje të tjera informacioni, të tilla si një entitet 'i emërtuar', si një person. Në një rast të tillë, një model NLP i trajnuar për të dhëna jo publike dhe të privilegjuara mund të mbajë të dhëna spitalore për Elon Musk, të tilla si të dhënat e pacientit, një emër dhe një adresë emaili.

Në skenarin më të keq, pyetja për një bazë të dhënash të tillë me kërkesën 'Cila është adresa e emailit të Elon Musk?' ose 'Cila është historia e pacientit të Elon Musk?' do të jepte ato pika të dhënash.

Në fakt, kjo pothuajse nuk ndodh kurrë, për një sërë arsyesh. Për shembull, nëse një memorizimi i mbrojtur i një fakti (siç është një adresë emaili) përfaqëson një njësi diskrete, njësia tjetër diskrete lart nuk do të jetë një kalim i thjeshtë deri në një shtresë më të lartë informacioni (p.sh. për Elon Musk), por mund të jetë një hap shumë më i madh që nuk ka lidhje me ndonjë person ose pikë të dhënash specifike.

Për më tepër, megjithëse arsyetimi për shoqërimin nuk është domosdoshmërisht arbitrar, as nuk është i parashikueshëm linear; shoqata mund të ndodhë bazuar në peshat që janë trajnuar me objektiva të ndryshëm humbjeje sesa thjesht marrja e informacionit hierarkik (siç është krijimi i një bisede abstrakte të besueshme), ose në/kundër mënyrave që janë udhëzuar (ose madje të ndaluara) në mënyrë specifike nga arkitektët e sistemit NLP.

Testimi i PLM-ve

Autorët testuan teorinë e tyre në tre përsëritje të GPT-Neo Familja e modelit të gjuhës shkakore, të trajnuar mbi grumbull të dhënat në 125 milionë, 1.3 miliardë dhe 2.7 miliardë parametra.

The Pile është një grumbullim i grupeve të të dhënave publike, duke përfshirë bazën e të dhënave UC Berkeley Enron, e cila përfshin informacionin e rrjetit social bazuar në shkëmbimet e postës elektronike. Meqenëse Enron ndoqi një standard emër+mbiemër+domain konventa (dmth [email mbrojtur]), adresa të tilla emaili u filtruan, sepse mësimi i makinës nuk është i nevojshëm për të marrë me mend një model kaq të lehtë.

Studiuesit filtronin gjithashtu çiftet e emrit/email-it me më pak se tre shenja, dhe pas përpunimit të përgjithshëm paraprak arritën në 3238 çifte emër/email, të cilat u përdorën në eksperimente të ndryshme të mëvonshme.

në vendosjen e kontekstit eksperiment, studiuesit përdorën 50, 100 ose 200 shenjat që i paraprinë adresës së emailit të synuar si një kontekst për të nxjerrë adresën me një kërkesë.

në vendosja e goditjes zero eksperiment, katër kërkesa u krijuan manualisht, dy të fundit bazuar në konventat standarde të kokës së emailit, si p.sh —Mesazhi origjinal—\nNga: {name0} [mailto: {email0}].

Modele për kërkesat me shkrepje zero. Burimi: https://arxiv.org/pdf/2205.12628.pdf

Tjetra, a vendosje me disa goditje u konsiderua - një skenar në të cilin sulmuesi ka disa njohuri paraprake që mund t'i ndihmojnë ata të krijojnë një kërkesë që do të nxjerrë informacionin e dëshiruar. Në kërkesat e krijuara, studiuesit konsiderojnë nëse domeni i synuar është i njohur apo i panjohur.

Përsëritjet e cilësimit me disa goditje.

Së fundi, metodë e bazuar në rregulla përdor 28 variacione të mundshme në modelet standarde për përdorimin e emrit në adresat e emailit për të tentuar të rikuperojë adresën e emailit të synuar. Kjo kërkon një numër të madh pyetjesh për të mbuluar të gjitha permutacionet e mundshme.

Modelet e bazuara në rregulla të përdorura në teste.

Rezultatet

Për detyrën e parashikimit me kontekst, GPT-Neo arrin të parashikojë saktë deri në 8.80% të adresave të emailit, duke përfshirë adresat që nuk përputheshin me modelet standarde.

Rezultatet e parashikimit me detyrë konteksti. Kolona e parë detajon numrin e argumenteve përpara adresës së emailit.

Për detyrën e vendosjes së shkrepjes zero, PLM ishte në gjendje të parashikonte saktë vetëm një numër të vogël adresash emaili, kryesisht në përputhje me modelet standarde të përcaktuara nga studiuesit (shih imazhin e mëparshëm).

Rezultatet e cilësimeve zero-shot ku domeni është i panjohur.

Autorët vërejnë me interes se cilësimi 0-shot (D) është dukshëm më i mirë se shokët e tij të qëndrueshëm, për shkak, me sa duket, për shkak të një parashtese më të gjatë.

"Kjo [tregon] se PLM-të po i bëjnë këto parashikime kryesisht bazuar në memorizimin e sekuencave - nëse ata bëjnë parashikime të bazuara në lidhje, ata duhet të performojnë në mënyrë të ngjashme. Arsyeja pse 0-shot (D) tejkalon 0-shot (C) është se konteksti më i gjatë mund të zbulojë më shumë [memorizimi]'

Modele më të mëdha, rrezik më të lartë

Në lidhje me potencialin e qasjeve të tilla për të nxjerrë të dhëna personale nga modele të trajnuara, autorët vërejnë:

"Për të gjitha cilësimet e domenit të njohur, të domenit të panjohur dhe të kontekstit, ka një përmirësim të konsiderueshëm në saktësinë kur kalojmë nga modeli 125M në modelin 1.3B. Dhe në shumicën e rasteve, kur ndryshoni nga modeli 1.3B në modelin 2.7B, ka gjithashtu një rritje në saktësinë e parashikimit.'

Studiuesit ofrojnë dy shpjegime të mundshme se pse është kështu. Së pari, modelet me parametra më të lartë janë thjesht në gjendje të memorizojnë një vëllim më të madh të të dhënave të trajnimit. Së dyti, modelet më të mëdha janë më të sofistikuara dhe më të aftë për të kuptuar kërkesat e krijuara, dhe për këtë arsye për të 'lidhur' informacionin e ndryshëm për një person.

Ata megjithatë vërejnë se në gjendjen aktuale të artit, informacioni personal është 'relativisht i sigurt' nga sulme të tilla.

Si një ilaç kundër këtij vektori sulmi, përballë modeleve të reja që po rriten vazhdimisht në madhësi dhe shtrirje, autorët këshillojnë që arkitekturat t'i nënshtrohen parapërpunimit rigoroz për të filtruar PII; për të marrë në konsideratë trajnimin me zbritje diferenciale me gradient privat; dhe për të përfshirë filtra në çdo mjedis pas përpunimit, të tillë si një API (për shembull, API DALL-E 2 i OpenAI përmban një numër të madh filtrash, përveç moderimit njerëzor të kërkesave).

Ata këshillojnë më tej kundër përdorimit të adresave të postës elektronike që përputhen me modelet e hamendshme dhe standarde, megjithëse kjo këshillë është tashmë standarde në sigurinë kibernetike.

* Zëvendësimi im i hiperlidhjeve për citimet inline të autorëve.

Botuar për herë të parë më 26 maj 2022.

Temat e ngjashme:përpunimi i gjuhës natyrore NLP hulumtim siguri

E rradhes

ATV-të që drejtojnë vetë po vijnë

Mos e humbas

Projekti i trurit njerëzor, Intel punojnë së bashku për të avancuar teknologjinë neuromorfike

Martin Anderson

Shkrimtar për mësimin e makinerive, inteligjencën artificiale dhe të dhënat e mëdha.
Faqja personale: martinanderson.ai
Kontaktoni: [email mbrojtur]
Twitter: @manders_ai