Stummel CAPTCHAs mit maschinellem Lernen lösen, um Dark-Web-Forschung zu ermöglichen – Unite.AI
Vernetzen Sie sich mit uns

Internet-Sicherheit

Lösen von CAPTCHAs mit maschinellem Lernen, um Dark-Web-Forschung zu ermöglichen

mm

Veröffentlicht

 on

Ein gemeinsames akademisches Forschungsprojekt aus den Vereinigten Staaten hat eine Methode zur Umgehung von CAPTCHA*-Tests entwickelt, die Berichten zufolge ähnliche hochmoderne Lösungen für maschinelles Lernen durch den Einsatz von Generative Adversarial Networks übertrifft (GANs), um die visuell komplexen Herausforderungen zu entschlüsseln.

Beim Testen des neuen Systems anhand der besten aktuellen Frameworks stellten die Forscher fest, dass ihre Methode bei einem sorgfältig kuratierten Benchmark-Datensatz aus der realen Welt einen Erfolg von mehr als 94.4 % erzielt und sich als fähig erwiesen hat, bei der Navigation durch ein stark CAPTCHA-geschütztes Schwellenland „die menschliche Beteiligung zu eliminieren“. Dark Net Marketplace, der CAPTCHA-Herausforderungen automatisch in maximal drei Versuchen löst.

Architektur für DW-GAN. Quelle: https://arxiv.org/pdf/2201.02799.pdf

Workflow für DW-GAN. Quelle: https://arxiv.org/pdf/2201.02799.pdf

Die Autoren behaupten, dass ihr Ansatz einen Durchbruch für Cybersicherheitsforscher darstellt, die traditionell die Kosten für die Bereitstellung von Human-in-the-Loop tragen mussten, um CAPTCHAs manuell zu lösen, normalerweise über Crowdsourcing-Plattformen wie Amazon Mechanical Turk (AMT).

Wenn sich das System als anpassungsfähig und belastbar erweisen kann, könnte es den Weg für stärker automatisierte Überwachungssysteme sowie für die Indizierung und das Web-Scraping von TOR-Netzwerken ebnen. Dies könnte skalierbare und umfangreiche Analysen sowie die Entwicklung neuer Cybersicherheitsansätze und -techniken ermöglichen, die bisher durch CAPTCHA-Firewalls behindert wurden.

Das Krepppapier ist betitelt Gegen textbasiertes CAPTCHA im Dark Web mit generativem gegnerischem Lernen für proaktive Cyber-Bedrohungsintelligenz vorgehen, und stammt von Forschern der University of Arizona, der University of South Florida und der University of Georgia.

Folgen

Da das System – genannt Dark Web-GAN (DW-GAN, verfügbar auf GitHub) – ist offenbar so viel performativer als seine Vorgänger, dass die Möglichkeit besteht, dass es als allgemeine Methode zur Überwindung des (normalerweise weniger schwierigen) CAPTCHA-Materials im Standard-Web verwendet wird, entweder in dieser spezifischen Implementierung oder basierend auf dem allgemeine Grundsätze, die das neue Papier umreißt. Aufgrund des begrenzten Speicherplatzes auf GitHub ist es derzeit jedoch erforderlich, den Hauptautor Ning Zhang zu kontaktieren, um die mit dem Framework verbundenen Daten zu erhalten.

Weil DW-GAN eine „positive“ Aufgabe hat, CAPTCHAs zu knacken (so wie TOR selbst ursprünglich eine positive Aufgabe hatte, militärische Kommunikation und später Journalisten zu schützen), und weil CAPTCHAs sowohl eine legitime Verteidigung sind (häufig als auch umstritten). benutzt (vom allgegenwärtigen CDN-Riesen CloudFlare) und ein beliebtes Tool illegitimer Dark-Web-Marktplätze, handelt es sich bei dem Ansatz wohl um eine „Nivellierungs“-Technologie.

Die Autoren selbst räumen ein, dass DW-GAN weitreichendere Einsatzmöglichkeiten hat:

„[Während] sich diese Studie hauptsächlich auf Dark-Web-CAPTCHA als anspruchsvolleres Problem konzentriert, wird erwartet, dass die in dieser Studie vorgeschlagene Methode ohne Verlust der Allgemeingültigkeit auf andere Arten von CAPTCHA anwendbar ist.“

Vermutlich müsste DW-GAN oder ein ähnliches System weit und offensichtlich verbreitet werden, um Dark-Web-Märkte dazu zu bringen, nach weniger maschinenauflösbaren Lösungen zu suchen oder zumindest ihre CAPTCHA-Konfigurationen regelmäßig weiterzuentwickeln, ein Szenario des „Kalten Krieges“.

Motivationen

Wie das Papier feststellt, ist das Dark Web die primäre Quelle der Hacker-Informationen im Zusammenhang mit Cyber-Angriffen geschätzt wird die Weltwirtschaft bis 10 2025 Billionen US-Dollar kosten. Daher bleiben Zwiebelnetzwerke eine relativ sichere Umgebung für illegale Dark-Net-Gemeinschaften, die Eindringlinge mit verschiedenen Methoden abwehren können, darunter Sitzungszeitüberschreitungen, Cookies und Benutzerauthentifizierung.

Zwei Arten von CAPTCHAs, die beide verschleiernde Hintergründe und geneigte Buchstaben verwenden, um sie weniger maschinenlesbar zu machen.

Zwei Arten von CAPTCHAs, die beide verschleiernde Hintergründe und geneigte Buchstaben verwenden, um sie weniger maschinenlesbar zu machen.

Die Autoren stellen jedoch fest, dass keines dieser Hindernisse so groß ist wie die Anzahl der CAPTCHAs, die das Surferlebnis in einer „sensiblen“ Community unterbrechen:

„Während die meisten dieser Maßnahmen durch die Implementierung automatisierter Gegenmaßnahmen in einem Crawler-Programm effektiv umgangen werden können, ist CAPTCHA die schädlichste Anti-Crawling-Maßnahme im Dark Web, die aufgrund hoher kognitiver Fähigkeiten, die Automatisierung oft nicht besitzt, nicht einfach umgangen werden kann.“ Werkzeug'

Textbasierte CAPTCHAs sind nicht die einzige verfügbare Option; Es gibt Varianten, die vielen von uns bekannt sind und den Benutzer dazu herausfordern, Video, Audio und insbesondere Bilder zu interpretieren. Dennoch ist, wie die Autoren feststellen, textbasiertes CAPTCHA dies derzeit die Herausforderung der Wahl für Dark-Web-Märkte und ein natürlicher Ausgangspunkt, um TOR-Netzwerke anfälliger für maschinelle Analysen zu machen.

Architektur

Obwohl ein früherer Ansatz der Northwest University in China Generative Adversarial Networks nutzte, um Merkmalsmuster aus CAPTCHA-Plattformen abzuleiten, stellen die Autoren des neuen Papiers fest, dass diese Methode auf der Interpretation eines gerasterten Bildes beruht und nicht auf einer tiefergehenden Untersuchung der in der Herausforderung erkannten Buchstaben ; und dass die Wirksamkeit von DW-GAN nicht durch die variable Länge unsinniger Wörter (und Zahlen) beeinträchtigt wird, die typischerweise in Dark-Web-CAPTCHAs zu finden sind.

DW-GAN verwendet eine vierstufige Pipeline: Zuerst wird das Bild erfasst und dann einem Modul zur Hintergrundentrauschung zugeführt, das ein GAN verwendet, das anhand annotierter CAPTCHA-Beispiele trainiert wurde und daher in der Lage ist, Buchstaben von dem gestörten Hintergrund, den sie enthalten, zu unterscheiden ruhen darauf. Die extrahierten Buchstaben werden dann nach der GAN-basierten Extraktion weiter aus dem verbleibenden Rauschen herausgefiltert.

Anschließend wird der extrahierte Text segmentiert und mithilfe von Konturerkennungsalgorithmen in scheinbar konstituierende Zeichen zerlegt.

Durch die Zeichensegmentierung wird die Pixelgruppe isoliert und versucht, sie mithilfe der Randverfolgung zu erkennen.

Durch die Zeichensegmentierung wird die Pixelgruppe isoliert und versucht, sie mithilfe der Randverfolgung zu erkennen.

Abschließend werden die „erratenen“ Zeichensegmente einer Zeichenerkennung über ein Convolutional Neural Network (CNN) unterzogen.

Manchmal können sich Zeichen überlappen, ein Hyper-Kerning, das speziell darauf ausgelegt ist, Maschinensysteme auszutricksen. DW-GAN verwendet daher eine intervallbasierte Segmentierung, um Grenzen zu verbessern und zu isolieren und so Zeichen effektiv zu trennen. Da es sich bei den Wörtern meist um Unsinn handelt, gibt es keinen semantischen Kontext, der diesen Prozess unterstützen könnte.

Die Ergebnisse

DW-GAN wurde anhand von CAPTCHA-Bildern aus drei verschiedenen Dark-Web-Datensätzen sowie einem beliebten CAPTCHA-Synthesizer getestet. Zu den dunklen Märkten, von denen die Bilder stammten, gehörten zwei Kardiergeschäfte, Rescator-1 und Rescator-2, und ein neuartiges Set aus einem damals aufstrebenden Markt namens Yellow Brick (das war berichtet (die später im Zuge der Abschaltung von DarkMarket verschwunden sein sollen).

Beispiel-CAPTCHAs aus den drei Datensätzen sowie der Open-Source-CAPTCHA-Synthesizer.

Beispiel-CAPTCHAs aus den drei Datensätzen sowie der Open-Source-CAPTCHA-Synthesizer.

Den Autoren zufolge wurden die in den Tests verwendeten Daten von Cyber ​​Threat Intelligence (CTI)-Experten aufgrund ihrer weiten Verbreitung in Dark-Net-Märkten empfohlen.

Das Testen jedes Datensatzes umfasste die Entwicklung einer TOR-seitigen Spinne, deren Aufgabe es war, 500 CAPTCHA-Bilder zu sammeln, die anschließend von CTI-Beratern beschriftet und kuratiert wurden.

Drei Experimente wurden entwickelt. Der erste bewertete die allgemeine CAPTCHA-besiegende Leistung von DW-GAN im Vergleich zu Standard-SOTA-Methoden. Die konkurrierenden Methoden waren CNN auf Bildebene mit Vorverarbeitung, einschließlich Graustufenkonvertierung, Normalisierung und Gaußscher Glättung, eine gemeinsame akademische Anstrengung des Iran und des Vereinigten Königreichs; CNN auf Zeichenebene mit intervallbasierter Segmentierung; Und CNN auf Bildebene, von der Universität Oxford im Vereinigten Königreich.

Ergebnisse von DW-GAN für das erste Experiment im Vergleich zu früheren Ansätzen auf dem neuesten Stand der Technik.

Ergebnisse von DW-GAN für das erste Experiment im Vergleich zu früheren Ansätzen auf dem neuesten Stand der Technik.

Die Forscher fanden heraus, dass DW-GAN frühere Ergebnisse auf ganzer Linie verbessern konnte (siehe Tabelle oben).

Beim zweiten Experiment handelte es sich um eine Ablationsstudie, bei der verschiedene Komponenten des aktiven Gerüsts entfernt oder deaktiviert wurden, um die Möglichkeit auszuschließen, dass externe oder sekundäre Faktoren die Ergebnisse beeinflussen.

Ergebnisse der Ablationsstudie.

Ergebnisse der Ablationsstudie.

Auch hier stellten die Autoren fest, dass die Deaktivierung wichtiger Teile der Architektur die Leistung von DW-GAN in fast allen Fällen verringerte (siehe Tabelle oben).

Im dritten Offline-Experiment wurde die Wirksamkeit von DW-GAN mit einer bildbasierten Benchmark-Methode und zwei Methoden auf Zeichenebene verglichen, um zu bestimmen, inwieweit die Zeichenbewertung von DW-GAN seine Nützlichkeit in Fällen beeinflusste, in denen ein unsinniges CAPTCHA-Wort willkürlich war (statt vordefinierter) Länge. In diesen Fällen variierte die CAPTCHA-Länge zwischen 4 und 7 Zeichen.

Für dieses Experiment verwendeten die Autoren einen Trainingssatz von 50,000 CAPTCHA-Bildern, wobei 5,000 für Tests in einer typischen 90/10-Aufteilung reserviert waren.

Auch hier übertraf DW-GAN frühere Ansätze:

Live-Test auf einem Darknet-Markt

Schließlich wurde DW-GAN gegen den (damals aktiven) Dark-Net-Markt Yellow Brick eingesetzt. Für diesen Test wurde ein Tor-Webbrowser entwickelt, der DW-GAN in seine Browsing-Funktionen integriert und CAPTCHA-Herausforderungen automatisch analysiert.

In diesem Szenario wurde dem automatisierten Crawler durchschnittlich alle 15 HTTP-Anfragen ein CAPTCHA vorgelegt. Der Crawler konnte 1,831 illegale Artikel zum Verkauf in Yellow Brick indizieren, darunter 1,223 drogenbezogene Produkte (einschließlich Opioide und Kokain), 44 Hacking-Pakete und neun gefälschte Dokumentenscans. Insgesamt konnte das System 286 Cybersicherheitsgegenstände identifizieren, darunter 102 entwendete Kreditkarten und 131 gestohlene Konto-Logins.

Die Autoren geben an, dass DW-GAN in allen Fällen in der Lage war, ein CAPTCHA in drei oder weniger Versuchen zu knacken, und dass 76 Minuten Verarbeitungszeit erforderlich waren, um CAPTCHAs zum Schutz aller 1,831 Produkte zu berücksichtigen. Es waren keine menschlichen Eingriffe erforderlich und es kam zu keinem Endpunktausfall.

Die Autoren bemerken das Auftauchen von Herausforderungen, die ein höheres Maß an Komplexität bieten als Text-CAPTCHAs, darunter einige, die auf Turing-Tests modelliert zu sein scheinen, und stellen fest, dass DW-GAN verbessert werden könnte, um diesen neuen Trends Rechnung zu tragen, sobald sie populärer werden.

 

*Vollständig automatisiert öffentlichen Turing-Test Neben Computer und Menschen zu sagen,

Erstveröffentlichung am 11. Januar 2022.