Bezpieczeństwo cybernetyczne
Przewidywanie nowych domen spamowych poprzez uczenie maszynowe
Naukowcy z Francji opracowali metodę identyfikowania nowo zarejestrowanych domen, które prawdopodobnie zostaną wykorzystane przez masowych spamerów e-mailowych w sposób „uciekający i uciekający” — czasami nawet zanim spamerzy wyślą jedną niechcianą wiadomość e-mail.
Technika ta opiera się na analizie sposobu, w jaki Ramy polityki nadawczej (SPF), metoda weryfikacji pochodzenia poczty elektronicznej, została wprowadzona na nowo rejestrowanych domenach.
Dzięki wykorzystaniu pasywny czujników DNS (Domain Name System) badaczom udało się uzyskać dane DNS w czasie zbliżonym do rzeczywistego od firmy Farsight z Seattle, uzyskując aktywność SPF dla Rekordy TXT dla szeregu domen.
Pierwotnie używano algorytmu wagi klasy zaprojektowany do przetwarzania niezbilansowanych danych medycznych i wdrożony w nauka-scikit uczenia maszynowego w języku Python badacze byli w stanie wykryć trzy czwarte oczekujących domen spamowych w ciągu kilku chwil lub nawet przed ich działaniem.
Artykuł stwierdza:
„Jednym żądaniem do rekordu TXT wykrywamy 75% domen spamowych, prawdopodobnie przed rozpoczęciem kampanii spamowej. Dlatego nasz program zapewnia znaczną szybkość reakcji: możemy wykrywać spamerów z dobrą skutecznością nawet przed wysłaniem jakiejkolwiek poczty i przed gwałtownym wzrostem ruchu DNS.
Badacze twierdzą, że funkcje zastosowane w ich technice można dodać do istniejących systemów wykrywania spamu w celu zwiększenia wydajności i bez zwiększania znacznych kosztów obliczeniowych, ponieważ system opiera się na danych SPF pasywnie wywnioskowanych z używanych już kanałów DNS w czasie zbliżonym do rzeczywistego dla różnych podejść do problemu.
Połączenia papier jest zatytułowany Wczesne wykrywanie domen spamowych za pomocą pasywnego DNS i SPFi pochodzi od trzech badaczy z Uniwersytetu w Grenoble.
Aktywność SPF
SPF ma na celu zapobieganie fałszowaniu adresów e-mail poprzez weryfikację, czy do wysłania wiadomości e-mail użyto zarejestrowanego i autoryzowanego adresu IP.
Inne metody weryfikacji adresu e-mail obejmują pocztę identyfikacyjną DomainKeys (rozszerzenie dkim) Podpisy i uwierzytelnianie wiadomości w oparciu o domenę, raportowanie i zgodność (DMARC).
Wszystkie trzy metody muszą być zarejestrowane jako rekordy TXT (ustawienia konfiguracyjne) u rejestratora domeny dla autentycznej domeny wysyłającej.
Spamuj i spalaj
W tym względzie spamerzy wykazują „charakterystyczne zachowanie”. Ich intencją (lub przynajmniej ubocznym skutkiem ich działalności) jest „spalenie” reputacji domeny i jej adresów IP poprzez wysyłanie poczty masowej do czasu podjęcia dowolnego działania przez dostawców sieci sprzedających te usługi; lub powiązane adresy IP są rejestrowane na popularnych listach filtrów spamu, co czyni je bezużytecznymi dla bieżącego nadawcy (i problematycznymi dla przyszłych właścicieli adresów IP).
Gdy lokalizacja domeny nie jest już możliwa, spamerzy w razie potrzeby przenoszą się do innych domen i usług, powtarzając procedurę z nowymi adresami IP i konfiguracjami.
Dane i metody
Domeny zbadane na potrzeby badania obejmują okres od maja do sierpnia 2021 r., zgodnie z danymi podanymi przez Farsight. Pod uwagę brane były wyłącznie domeny świeżo zarejestrowane, gdyż jest to zgodne z art modus operandi uporczywego spamera.
Lista domen została zbudowana na podstawie danych z usługi danych strefy centralnej ICANN (CZDS). Informacje z czarnej listy z SURBL i SpamHaus projekty zostały wykorzystane do identyfikacji w czasie zbliżonym do rzeczywistego potencjalnie problematycznych rejestracji nowych domen – chociaż autorzy przyznają, że niedoskonały charakter list spamowych może prowadzić do przypadkowego zaklasyfikowania łagodnych domen jako potencjalnych źródeł poczty masowej.
Po przechwyceniu zapytań DNS TXT do nowo zarejestrowanych domen znalezionych w pasywnym kanale DNS, zachowane zostały tylko zapytania z prawidłowymi danymi SPF, co stanowi podstawę algorytmów.
SPF ma wiele przydatnych funkcji; w nowym artykule stwierdzono, że choć „łagodni” właściciele domen najczęściej korzystają z domeny + zawiera mechanizmu, spamerzy mają największe wykorzystanie (obecnie przestarzałego) +ptr cecha.
Wyszukiwanie +ptr porównuje adres IP wysyłanej poczty z wszelkimi istniejącymi rekordami dotyczącymi powiązania między tym adresem IP a nazwą hosta (np. GoDaddy). Jeśli nazwa hosta zostanie odkryta, jego domena jest porównywana z tą, która została po raz pierwszy użyta do odniesienia się do rekordu SPF.
Spamerzy mogą wykorzystać pozorną rygorystyczność +ptr, aby zaprezentować się w bardziej wiarygodnym świetle, podczas gdy w rzeczywistości zasoby potrzebne do przeprowadzania wyszukiwań +ptr na dużą skalę powodują, że wielu dostawców całkowicie pomija tę kontrolę.
Krótko mówiąc, sposób, w jaki spamerzy wykorzystują filtr SPF w celu zabezpieczenia okazji przed rozpoczęciem operacji „wysadź i spal”, stanowi charakterystyczną cechę, którą można wywnioskować na podstawie analizy maszynowej.
Ponieważ spamerzy często przenoszą się do bardzo pobliskich zakresów adresów IP i zasobów, badacze opracowali wykres zależności w celu zbadania korelacji między zakresami adresów IP i domenami. Wykres może być aktualizowany niemal w czasie rzeczywistym w odpowiedzi na nowe dane ze SpamHaus i innych źródeł, z czasem staje się coraz bardziej użyteczny i kompletny.
Naukowcy stwierdzają:
„Badanie tych struktur może ujawnić potencjalne domeny spamowe. W naszym zbiorze danych znaleźliśmy [struktury], w których kilkadziesiąt domen korzystało z tej samej reguły [SPF] i większość z nich znajdowała się na czarnych listach spamowych. W związku z tym rozsądne jest założenie, że pozostałe domeny prawdopodobnie nie zostały jeszcze wykryte lub nie są jeszcze aktywnymi domenami spamowymi.
Efekt
Badacze porównali opóźnienie w wykryciu domeny spamu w swoich podejściach do SpamHaus i SURBL w okresie 50 godzin. Zgłaszają, że w przypadku 70% zidentyfikowanych domen spamowych ich własny system był szybszy, choć przyznają, że 26% zidentyfikowanych domen spamowych rzeczywiście pojawiło się na komercyjnych czarnych listach w ciągu następnej godziny. 30% domen znajdowało się już na czarnej liście, gdy pojawiły się w pasywnym kanale DNS.
Autorzy twierdzą, że wynik F1 wynosi 79% w stosunku do prawdy na podstawie pojedynczego zapytania DNS, podczas gdy konkurencyjne metody, takie jak Ekspozycja może wymagać tygodnia wstępnej analizy.
Obserwują:
„Nasz schemat można zastosować na wczesnych etapach cyklu życia domeny: korzystając z pasywnego (lub aktywnego) DNS, możemy uzyskać reguły SPF dla nowo rejestrowanych domen i natychmiast je sklasyfikować lub poczekać, aż wykryjemy zapytania TXT do tej domeny i udoskonalić klasyfikacja na podstawie trudnych do uniknięcia cech czasowych.
I kontynuuj:
„[Nasz] najlepszy klasyfikator wykrywa 85% domen zawierających spam, utrzymując współczynnik wyników fałszywie pozytywnych poniżej 1%. Wyniki wykrywania są niezwykłe, biorąc pod uwagę, że klasyfikacja wykorzystuje jedynie treść reguł SPF domeny i ich relacje oraz trudne do obejścia funkcje oparte na ruchu DNS.
„Wydajność klasyfikatorów pozostaje wysoka, nawet jeśli otrzymają one jedynie cechy statyczne, które można zebrać z pojedynczego zapytania TXT (obserwowanego pasywnie lub aktywnie).”
Aby zobaczyć prezentację na temat nowej metody, obejrzyj poniższy film:
Opublikowano po raz pierwszy 5 maja 2022 r.