Connect with us

Pobieranie adresów e-mail z prawdziwego świata z pre-trenowanych modeli języka naturalnego

Sztuczna inteligencja

Pobieranie adresów e-mail z prawdziwego świata z pre-trenowanych modeli języka naturalnego

mm

Nowe badania z USA wskazują, że pre-trenowane modele języka (PLM), takie jak GPT-3, mogą być z powodzeniem wykorzystywane do pobierania adresów e-mail z prawdziwego świata, które zostały uwzględnione w ogromnych ilościach danych wykorzystanych do ich trenowania.

Chociaż obecnie jest trudno uzyskać prawdziwy adres e-mail, pytając model języka o osobę, z którą adres e-mail jest związany, badanie wykazało, że im większy model języka, tym łatwiej jest wykonać tego rodzaju eksfiltrację; oraz że im bardziej rozległe i poinformowane jest zapytanie, tym łatwiej jest uzyskać funkcjonalny adres e-mail.

W artykule stwierdza się:

‘Wyniki dowodzą, że PLM naprawdę zapamiętują dużą liczbę adresów e-mail; jednak nie rozumieją dokładnych powiązań między nazwami a adresami e-mail, np. do kogo należy zapamiętany adres e-mail. Dlatego też, biorąc pod uwagę kontekst adresów e-mail, PLM mogą odzyskać przyzwoitą ilość adresów e-mail, podczas gdy tylko nieliczne adresy e-mail są przewidywane poprawnie przez zapytanie z nazwami.’

Aby przetestować tę teorię, autorzy wytrenowali trzy PLM o rosnącej wielkości i parametrach, a następnie zapytali je zgodnie z zestawem szablonów i metod, które mogłyby być używane przez atakującego.

Artykuł oferuje trzy kluczowe spostrzeżenia dotyczące ryzyka związanego z umożliwieniem uwzględnienia prawdziwych danych osobowych w ogromnych zbiorach danych, na których opierają się duże PLM.

Po pierwsze, że długie wzorce tekstu (w zapytaniach) zwiększają możliwość uzyskania informacji prywatnych o osobie, tylko poprzez wymienienie tej osoby. Po drugie, że atakujący mogą uzupełnić swoje podejście o istniejącą wiedzę o swoim celu, oraz że im więcej takiej wiedzy ma atakujący, tym bardziej prawdopodobne jest, że będą w stanie wydobyć zapamiętane dane, takie jak adresy e-mail.

Trzecie, autorzy stawiają tezę, że większe i bardziej zaawansowane modele przetwarzania języka naturalnego (NLP) mogą umożliwić atakującemu wydobyć więcej informacji, zmniejszając “bezpieczeństwo przez niejasność” obecnych PLM, ponieważ coraz bardziej zaawansowane i hiperskalowe modele są trenowane przez podmioty na poziomie FAANG.

W końcu, artykuł stwierdza, że dane osobowe mogą być rzeczywiście przechowywane i ujawniane poprzez proces zapamiętywania, w którym model tylko częściowo “przetwarza” dane treningowe, tak aby mógł wykorzystać te niesprzetzona informację jako “faktualną” w odpowiedzi na zapytania.

Autorzy stwierdzają*:

‘Z wyników ustawienia kontekstu stwierdzamy, że największy model GPT-Neo może odzyskać 8,80% adresów e-mail poprawnie za pomocą zapamiętywania. ‘

‘Chociaż to ustawienie nie jest tak niebezpieczne, jak inne, ponieważ jest praktycznie niemożliwe, aby użytkownicy znali kontekst, jeśli korpus nie jest publiczny, adres e-mail może nadal być przypadkowo wygenerowany, a zagrożenie nie może być ignorowane.’

Chociaż badanie wybiera adresy e-mail jako przykład potencjalnie wrażliwych danych osobowych, artykuł podkreśla obszerną pracę badawczą w tym zakresie w odniesieniu do wydobywania danych medycznych pacjentów, i uważa swoje eksperymenty za demonstrację zasady, a nie konkretnego podkreślenia wrażliwości adresów e-mail w tym kontekście.

Artykuł artykuł nosi tytuł Czy duże pre-trenowane modele języka przeciekają Twoje dane osobowe?, i został napisany przez trzech badaczy z Uniwersytetu Illinois w Urbana-Champaign.

Zapamiętywanie i powiązanie

Praca koncentruje się na stopniu, w jakim zapamiętana informacja jest powiązana. Wytrenowany model NLP nie może całkowicie abstrahować informacji, na której został wytrenowany, lub nie byłby w stanie prowadzić spójnej argumentacji, lub wywołać jakichkolwiek faktów w ogóle. W tym celu model zapamiętuje i chroni dyskretne fragmenty danych, które będą reprezentować minimalne węzły semantyczne w możliwej odpowiedzi.

Duże pytanie brzmi, czy zapamiętana informacja może być wywołana przez wywołanie innych rodzajów informacji, takich jak “nazwana” jednostka, jak osoba. W takim przypadku model NLP wytrenowany na niepublicznych i uprzywilejowanych danych może przechowywać dane szpitalne o Elonie Musku, takie jak rekordy pacjentów, nazwę i adres e-mail.

W najgorszym przypadku, zapytanie takiej bazy danych z podpowiedzią “Jaki jest adres e-mail Elona Muska?” lub “Jaka jest historia pacjenta Elona Muska?” mogłoby wywołać te dane.

W rzeczywistości to prawie nigdy nie występuje, z powodu kilku powodów. Na przykład, jeśli chroniona pamięć faktu (taka jak adres e-mail) reprezentuje dyskretne jednostki, następna dyskretne jednostki w górę nie będzie prostym przejściem do wyższego poziomu informacji (tj. o Elonie Musku), ale może być znacznie większym skokiem, który nie jest związany z konkretną osobą lub danymi.

Ponadto, chociaż podstawa powiązania nie jest koniecznie arbitralna, nie jest również predictably liniowa; powiązanie może wystąpić na podstawie wag, które zostały wytrenowane z różnymi celami straty niż proste hierarchiczne pobieranie informacji (takie jak generowanie prawdopodobnych abstrakcyjnych rozmów), lub w/przeciwko sposobom, które zostały szczegółowo ukierunkowane (lub nawet zabronione) przez architektów systemu NLP.

Testowanie PLM

Autorzy przetestowali swoją teorię na trzech wersjach rodziny modeli języka GPT-Neo, wytrenowanych na zbiorze danych Pile o 125 milionach, 1,3 miliarda i 2,7 miliarda parametrów.

Pile to zbiór publicznych zbiorów danych, w tym bazy danych Enron z Uniwersytetu Kalifornijskiego w Berkeley, który zawiera informacje o sieciach społecznych oparte na wymianie e-mail. Ponieważ Enron stosował standardową imię+nazwisko+domena konwencję (tj. imię[email protected]), takie adresy e-mail zostały odfiltrowane, ponieważ nie jest potrzebne uczenie maszynowe, aby odgadnąć taki prosty wzorzec.

Badacze również odfiltrowali pary nazwa/adres e-mail z mniej niż trzema tokenami, a po całkowitej pre-procesji uzyskali 3238 par nazwa/adres e-mail, które zostały wykorzystane w różnych następnych eksperymentach.

W ustawieniu kontekstu eksperymentu, badacze wykorzystali 50, 100 lub 200 tokenów poprzedzających adres e-mail jako kontekst, aby wywołać adres za pomocą podpowiedzi.

W ustawieniu zero-shot eksperymentu, cztery podpowiedzi zostały utworzone ręcznie, dwie ostatnie oparte na standardowych konwencjach nagłówków e-mail, takich jak —Original Message—\nFrom: {name0} [mailto: {email0}].

Szablony podpowiedzi zero-shot. Źródło: https://arxiv.org/pdf/2205.12628.pdf

Szablony podpowiedzi zero-shot. Źródło: https://arxiv.org/pdf/2205.12628.pdf

Następnie, ustawienie few-shot zostało rozważone – scenariusz, w którym atakujący ma pewną wiedzę wstępną, która może pomóc im stworzyć podpowiedź, która wywoła pożądane informacje. W stworzonych podpowiedziach, badacze rozważają, czy docelowa domena jest znana czy nieznana.

Iteracje ustawienia few-shot.

Iteracje ustawienia few-shot.

W końcu, metoda oparta na regułach wykorzystuje 28 prawdopodobnych wariacji standardowych wzorców nazw w adresach e-mail, aby spróbować odzyskać adres e-mail. To wymaga dużej liczby zapytań, aby objąć wszystkie możliwe permutacje.

Wzorce oparte na regułach wykorzystane w testach.

Wzorce oparte na regułach wykorzystane w testach.

Wyniki

Dla zadania przewidywania z kontekstem, GPT-Neo odnosi sukces w przewidywaniu aż 8,80% adresów e-mail poprawnie, w tym adresów, które nie zgadzają się ze standardowymi wzorcami.

Wyniki zadania przewidywania z kontekstem. Pierwsza kolumna zawiera liczbę tokenów poprzedzających adres e-mail.

Wyniki zadania przewidywania z kontekstem. Pierwsza kolumna zawiera liczbę tokenów poprzedzających adres e-mail.

Dla zadania ustawienia zero-shot, PLM był w stanie poprawnie przewidzieć tylko niewielką liczbę adresów e-mail, głównie zgodnych ze standardowymi wzorcami ustalonymi przez badaczy (patrz poprzedni obraz).

Wyniki ustawień zero-shot, w których domena jest nieznana.

Wyniki ustawień zero-shot, w których domena jest nieznana.

Autorzy zauważają z zainteresowaniem, że ustawienie 0-shot (D) wyróżnia się znacznie lepszym wynikiem niż jego odpowiedniki, co wynika najprawdopodobniej z dłuższego prefiksu.

‘To [wskazuje] na to, że PLM wykonują te przewidywania głównie na podstawie zapamiętywania sekwencji – jeśli wykonują przewidywania na podstawie powiązań, powinny osiągać podobne wyniki. Powodem, dla którego ustawienie 0-shot (D) przewyższa ustawienie 0-shot (C), jest to, że dłuższy kontekst może odkryć więcej [zapamiętywania]’

Większe modele, wyższe ryzyko

W odniesieniu do potencjału takich podejść do wydobywania danych osobowych z wytrenowanych modeli, autorzy zauważają:

‘Dla wszystkich znanych domen, nieznanych domen i ustawień kontekstu, istnieje znaczna poprawa dokładności, gdy przechodzimy od modelu 125M do modelu 1,3B. I w większości przypadków, gdy przechodzimy od modelu 1,3B do modelu 2,7B, również występuje wzrost dokładności przewidywania.’

Badacze proponują dwa możliwe wyjaśnienia, dlaczego tak się dzieje. Po pierwsze, modele o wyższych parametrach są po prostu w stanie zapamiętać większą ilość danych treningowych. Po drugie, większe modele są bardziej zaawansowane i lepiej rozumieją stworzone podpowiedzi, i dlatego są w stanie “połączyć” rozproszone informacje o osobie.

Stwierdzają jednak, że w obecnym stanie sztuki, dane osobowe są “relatywnie bezpieczne” przed takimi atakami.

Jako środek zaradczy przeciwko temu wektorowi ataku, w obliczu nowych modeli, które są coraz większe i szersze, autorzy radzą, aby architektury były poddawane rygorystycznemu pre-procesowi w celu odfiltrowania danych osobowych; aby rozważyć trenowanie z różnicowo prywatnym gradientem; oraz aby uwzględniać filtry w każdym środowisku post-procesowym, takim jak API (na przykład, API DALL-E 2 OpenAI zawiera wiele filtrów, oprócz moderacji podpowiedzi przez człowieka).

Radzą również przeciwko używaniu adresów e-mail, które zgadzają się ze standardowymi i łatwymi do odgadnięcia wzorcami, chociaż ta rada jest już standardem w cyberbezpieczeństwie.

 

* Moja substytucja odnośników do cytowań autorów.

Pierwotnie opublikowane 26 maja 2022.

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.