Internet-Sicherheit
Antizipieren neuer Spam-Domänen durch maschinelles Lernen

Forscher aus Frankreich haben eine Methode entwickelt, um neu registrierte Domänen zu identifizieren, die wahrscheinlich von Massen-E-Mail-Spammern für einen „Hit-and-Run“-Angriff missbraucht werden – manchmal sogar, bevor die Spammer eine einzige unerwünschte E-Mail verschickt haben.
Die Technik basiert auf der Analyse der Art und Weise, wie das Sender Policy Framework (SPF), eine Methode zur ĂśberprĂĽfung der E-Mail-Herkunft, wurde auf neu registrierten Domains eingerichtet.
Dank der Verwendung von Passiv Mithilfe von DNS-Sensoren (Domain Name System) konnten die Forscher nahezu in Echtzeit DNS-Daten vom in Seattle ansässigen Unternehmen Farsight erhalten, die SPF-Aktivität für ermitteln TXT-Einträge für eine Reihe von Domänen.
Ursprünglich wurde ein Klassengewichtungsalgorithmus verwendet entworfen zur Verarbeitung unausgeglichener medizinischer Daten und implementiert in der scikit-lernen Mithilfe der Python-Bibliothek für maschinelles Lernen konnten die Forscher drei Viertel der ausstehenden Spam-Domänen innerhalb weniger Augenblicke oder sogar vor ihrem Betrieb erkennen.
Das Papier sagt:
„Mit einer einzigen Anfrage an den TXT-Eintrag erkennen wir 75 % der Spam-Domains, möglicherweise sogar noch vor dem Start der Spam-Kampagne. Unser System sorgt somit für eine deutlich schnellere Reaktion: Wir können Spammer mit guter Leistung erkennen, noch bevor überhaupt eine E-Mail versendet wird und bevor es zu einem Anstieg des DNS-Verkehrs kommt.“
Die Forscher behaupten, dass die in ihrer Technik verwendeten Funktionen zu bestehenden Spam-Erkennungssystemen hinzugefügt werden könnten, um die Leistung zu steigern, und zwar ohne nennenswerten Rechenaufwand, da das System auf SPF-Daten basiert, die passiv aus bereits verwendeten DNS-Feeds nahezu in Echtzeit abgeleitet werden für unterschiedliche Herangehensweisen an das Problem.
Die Krepppapier ist betitelt Frühzeitige Erkennung von Spam-Domänen mit passivem DNS und SPF, und stammt von drei Forschern der Universität Grenoble.
SPF-Aktivität
SPF soll das Spoofing von E-Mail-Adressen verhindern, indem ĂĽberprĂĽft wird, ob zum Senden einer E-Mail eine registrierte und autorisierte IP-Adresse verwendet wurde.

In diesem SPF-Beispiel sendet „Alice“ eine harmlose E-Mail an „Bob“, während der Angreifer „Mallory“ versucht, sich als Alice auszugeben. Beide versenden E-Mails von ihren eigenen Domänen, aber nur Alices Server ist für den Versand von Alices E-Mails registriert. Mallorys Spoofing wird daher vereitelt, da seine gefälschte E-Mail die SPF-Verifizierung nicht besteht. Quelle: https://arxiv.org/pdf/2205.01932.pdf
Weitere Methoden zur E-Mail-Verifizierung sind DomainKeys Identified Mail (DKIM) Signaturen und domänenbasierte Nachrichtenauthentifizierung, Berichterstellung und Konformität (DMarc).
Alle drei Methoden müssen als TXT-Einträge (Konfigurationseinstellungen) beim Domain-Registrar für die authentische sendende Domain registriert werden.
Spam und Burn
Spammer legen in dieser Hinsicht ein typisches Verhalten an den Tag. Ihre Absicht (oder zumindest der Nebeneffekt ihrer Aktivitäten) besteht darin, den Ruf der Domain und ihrer IP-Adressen durch den Massenversand von E-Mails zu schädigen, bis entweder die Netzwerkanbieter, die diese Dienste verkaufen, Maßnahmen ergreifen oder die zugehörigen IP-Adressen in gängigen Spamfilterlisten registriert werden, wodurch sie für den aktuellen Absender unbrauchbar (und für die zukünftigen Besitzer der IP-Adressen problematisch) werden.

Ein enges Zeitfenster: die Zeit in Stunden, bevor eine neue Spam-Domain von SpamHaus und verschiedenen anderen Ăśberwachungsdiensten gesperrt und unbrauchbar gemacht wird.
Wenn der Domänenstandort nicht mehr praktikabel ist, wechseln die Spammer bei Bedarf zu anderen Domänen und Diensten und wiederholen den Vorgang mit neuen IP-Adressen und Konfigurationen.
Daten und Methoden
Die für die Forschung untersuchten Domänen decken den von Farsight bereitgestellten Zeitraum zwischen Mai und August 2021 ab. Es wurden nur frisch registrierte Domains berücksichtigt, da dies im Einklang mit dem steht Verfahrensweise des hartnäckigen Spammers.
Die Domänenliste wurde anhand von Daten des ICANN Central Zone Data Service (CZDS) erstellt. Blacklist-Informationen von der SURBL mit einem Spam Haus Projects wurde verwendet, um potenziell problematische neue Domain-Registrierungen nahezu in Echtzeit zu identifizieren – obwohl die Autoren einräumen, dass die Unvollkommenheit von Spam-Listen dazu führen kann, dass harmlose Domains versehentlich als potenzielle Quellen für Massenmails kategorisiert werden.
Nach der Erfassung von DNS-TXT-Abfragen an die im passiven DNS-Feed gefundenen neu registrierten Domänen wurden nur Abfragen mit gültigen SPF-Daten beibehalten, was die Grundlage für die Algorithmen lieferte.

SPF verfügt über eine Reihe nützlicher Funktionen. Das neue Dokument hat ergeben, dass „gutartige“ Domänenbesitzer am häufigsten die +einschließen Mechanismus nutzen Spammer am häufigsten den (jetzt veralteten) +ptr -Funktion.

SPF-Regelnutzung durch Spammer im Vergleich zur Standardnutzung.
Eine +ptr-Suche vergleicht die IP-Adresse der sendenden E-Mail mit allen Datensätzen, die für eine Zuordnung zwischen dieser IP und dem Hostnamen (z. B. GoDaddy) vorhanden sind. Wenn der Hostname erkannt wird, wird seine Domäne mit der Domäne verglichen, die zuerst zum Verweisen auf den SPF-Eintrag verwendet wurde.
Spammer können die scheinbare Strenge von +ptr ausnutzen, um sich in einem glaubwürdigeren Licht zu präsentieren, obwohl viele Anbieter aufgrund der Ressourcen, die für die Durchführung groß angelegter +ptr-Suchen erforderlich sind, die Prüfung völlig überspringen.
Kurz gesagt: Die Art und Weise, wie Spammer SPF verwenden, um sich ein Zeitfenster zu sichern, bevor die „Blast and Burn“-Operation beginnt, stellt eine charakteristische Signatur dar, die durch maschinelle Analyse abgeleitet werden kann.

Charakteristische SPF-Beziehungen für Spam-Domänen.
Da sich Spammer oft in sehr nahegelegene IP-Bereiche und -Ressourcen bewegen, haben die Forscher ein Beziehungsdiagramm entwickelt, um die Korrelation zwischen IP-Bereichen und Domänen zu untersuchen. Das Diagramm kann nahezu in Echtzeit als Reaktion auf neue Daten von SpamHaus und anderen Quellen aktualisiert werden und wird im Laufe der Zeit immer nützlicher und vollständiger.
Die Forscher geben an:
Die Untersuchung dieser Strukturen kann potenzielle Spam-Domänen aufzeigen. In unserem Datensatz fanden wir Strukturen, in denen Dutzende von Domänen dieselbe SPF-Regel verwendeten und die meisten davon auf Spam-Blacklists standen. Daher ist davon auszugehen, dass die übrigen Domänen wahrscheinlich noch nicht erkannt wurden oder noch keine aktiven Spam-Domänen sind.
Ergebnisse
Die Forscher verglichen die Latenz der Spam-Domänenerkennung ihres Ansatzes mit SpamHaus und SURBL über einen Zeitraum von 50 Stunden. Sie berichten, dass ihr eigenes System bei 70 % der identifizierten Spam-Domains schneller war, räumen jedoch ein, dass 26 % der identifizierten Spam-Domains in der folgenden Stunde tatsächlich in den kommerziellen Blacklists auftauchten. 30 % der Domains befanden sich bereits auf einer Blacklist, als sie im passiven DNS-Feed auftauchten.
Die Autoren geben einen F1-Score von 79 % gegenüber Ground Truth an, der auf einer einzigen DNS-Abfrage basiert, während konkurrierende Methoden wie z Belichtung kann eine Woche Voranalyse erfordern.
Sie beobachten:
„Unser Schema kann in frühen Phasen des Lebenszyklus einer Domäne angewendet werden: Mithilfe von passivem (oder aktivem) DNS können wir SPF-Regeln für neu registrierte Domänen abrufen und sie sofort klassifizieren oder warten, bis wir TXT-Abfragen an diese Domäne erkennen und die Klassifizierung mithilfe schwer zu umgehender zeitlicher Merkmale verfeinern.“
Und fortsetzen:
„[Unser] bester Klassifikator erkennt 85 % der Spam-Domains und hält dabei die Falsch-Positiv-Rate unter 1 %.“ Die Erkennungsergebnisse sind bemerkenswert, da die Klassifizierung nur den Inhalt der SPF-Regeln der Domäne und deren Beziehungen sowie schwer zu umgehende Funktionen basierend auf dem DNS-Verkehr verwendet.
„Die Leistung der Klassifikatoren bleibt hoch, auch wenn ihnen nur die statischen Merkmale zur Verfügung gestellt werden, die aus einer einzelnen TXT-Abfrage (passiv beobachtet oder aktiv abgefragt) gewonnen werden können.“
Um eine Präsentation der neuen Methode zu sehen, sehen Sie sich das unten eingebettete Video an:
Erstveröffentlichung am 5. Mai 2022.












