Connect with us

Cybersicherheit

Lösung von CAPTCHAs mit Machine Learning zur Ermöglichung von Dark-Web-Forschung

mm

Ein gemeinsames akademisches Forschungsprojekt aus den Vereinigten Staaten hat eine Methode entwickelt, um CAPTCHA-Tests zu umgehen, die angeblich ähnliche state-of-the-art-Machine-Learning-Lösungen übertrumpfen, indem sie Generative Adversarial Networks (GANs) verwenden, um die visuell komplexen Herausforderungen zu entschlüsseln.

Die Erforschung des neuen Systems gegen die besten aktuellen Frameworks ergab, dass ihre Methode mehr als 94,4 % Erfolg bei einem sorgfältig kuratierten realen Benchmark-Datensatz erzielt und sich als in der Lage erwiesen hat, “menschliche Beteiligung” zu eliminieren, wenn sie einen stark CAPTCHA-geschützten aufstrebenden Dark-Net-Marktplatz navigiert, und automatisch CAPTCHA-Herausforderungen in maximal drei Versuchen löst.

Architektur für DW-GAN. Quelle: https://arxiv.org/pdf/2201.02799.pdf

Workflow für DW-GAN. Quelle: https://arxiv.org/pdf/2201.02799.pdf

Die Autoren behaupten, dass ihr Ansatz einen Durchbruch für Cybersicherheitsforscher darstellt, die traditionell die Kosten für die Bereitstellung von Menschen im Verfahren zur manuellen Lösung von CAPTCHAs tragen mussten, in der Regel über Crowdsourcing-Plattformen wie Amazon Mechanical Turk (AMT).

Wenn das System sich als anpassungsfähig und widerstandsfähig erweist, kann es den Weg für weitere automatisierte Überwachungssysteme und für die Indizierung und Web-Scraping von TOR-Netzwerken ebnen. Dies könnte skalierbare und hochvolumige Analysen ermöglichen sowie die Entwicklung neuer Cybersicherheitsansätze und -techniken, die bisher durch CAPTCHA-Feuerwände behindert wurden.

Das Papier trägt den Titel Gegenmaßnahmen gegen Dark-Web-Text-basierte CAPTCHA mit generativen adversativen Lernverfahren für proaktive Cyber-Bedrohungsintelligenz und stammt von Forschern der University of Arizona, der University of South Florida und der University of Georgia.

Auswirkungen

Da das System – genannt Dark Web-GAN (DW-GAN, verfügbar auf GitHub) – offensichtlich so viel leistungsfähiger ist als seine Vorgänger, besteht die Möglichkeit, dass es als allgemeine Methode verwendet wird, um CAPTCHA-Material auf dem Standard-Web zu überwinden, entweder in dieser spezifischen Implementierung oder auf der Grundlage der allgemeinen Prinzipien, die das neue Papier skizziert. Aufgrund des begrenzten Speicherplatzes auf GitHub ist es jedoch derzeit notwendig, den Lead-Autor Ning Zhang zu kontaktieren, um die mit dem Framework verbundenen Daten zu erhalten.

Da DW-GAN eine “positive” Mission für das Umgehen von CAPTCHAs hat (ähnlich wie TOR ursprünglich eine positive Mission für den Schutz militärischer Kommunikation und später für Journalisten hatte) und da CAPTCHAs sowohl eine legitime Verteidigung (häufig und umstritten verwendet von der ubiquitären CDN-Riesenfirma CloudFlare) als auch ein beliebtes Werkzeug von illegitimen Dark-Web-Marktplätzen sind, ist der Ansatz eindeutig eine “Nivellierungstechnologie”.

Die Autoren selbst räumen ein, dass DW-GAN eine breitere Anwendung hat:

‘[Während] diese Studie hauptsächlich auf Dark-Web-CAPTCHA als ein schwierigeres Problem fokussiert ist, ist die in dieser Studie vorgeschlagene Methode erwartungsgemäß auf andere Arten von CAPTCHA ohne Verlust der Allgemeingültigkeit anwendbar.’

Vermutlich müsste DW-GAN oder ein ähnliches System weit und offensichtlich verbreitet werden, um Dark-Web-Märkte dazu zu bringen, weniger maschinell auflösbare Lösungen zu suchen oder zumindest ihre CAPTCHA-Konfigurationen periodisch zu ändern, ein “Kalter Krieg”-Szenario.

Motivationen

Wie das Papier feststellt, ist das Dark Web die primäre Quelle für Hacker-Intelligenz in Bezug auf Cyber-Angriffe, die geschätzt werden, bis 2025 die globale Wirtschaft 10 Billionen US-Dollar kosten werden. Daher bleiben Onion-Netzwerke eine relativ sichere Umgebung für illegale Dark-Net-Gemeinschaften, die Eindringlinge durch verschiedene Methoden abwehren können, einschließlich Sitzungszeitüberschreitungen, Cookies und Benutzerauthentifizierung.

Zwei Arten von CAPTCHA, beide mit verschwommenen Hintergründen und geneigter Schrift, um sie weniger maschinell lesbar zu machen.

Zwei Arten von CAPTCHA, beide mit verschwommenen Hintergründen und geneigter Schrift, um sie weniger maschinell lesbar zu machen.

Jedoch bemerken die Autoren, dass keine dieser Hindernisse so groß ist wie die Reihe von CAPTCHAs, die die Browsingerfahrung in einer “sensiblen” Gemeinschaft durchsetzen:

‘Während die meisten dieser Maßnahmen durch die Implementierung automatisierter Gegenmaßnahmen in einem Crawler-Programm effektiv umgangen werden können, ist CAPTCHA die hemmendste Anti-Crawling-Maßnahme im Dark Web, die nicht leicht umgangen werden kann, da sie hohe kognitive Fähigkeiten erfordert, die oft nicht von Automatisierungstools besessen werden.’

Textbasierte CAPTCHAs sind nicht die einzige verfügbare Option; es gibt Varianten, die vielen von uns vertraut sind, die den Benutzer auffordern, Video, Audio und insbesondere Bilder zu interpretieren. Dennoch bemerken die Autoren, dass textbasierte CAPTCHA derzeit die Herausforderung der Wahl für Dark-Web-Märkte ist und ein natürlicher Ausgangspunkt ist, um TOR-Netzwerke für maschinelle Analysen anfälliger zu machen.

Architektur

Obwohl ein vorheriger Ansatz von der Northwest University in China Generative Adversarial Networks verwendet hat, um Muster aus CAPTCHA-Plattformen abzuleiten, bemerken die Autoren des neuen Papiers, dass diese Methode auf der Interpretation eines gerasterten Bildes basiert, anstatt einer tieferen Untersuchung der in der Herausforderung erkannten Buchstaben; und dass die Effektivität von DW-GAN nicht von der variablen Länge der Unsinnswörter (und Zahlen) beeinflusst wird, die typischerweise in Dark-Web-CAPTCHAs gefunden werden.

DW-GAN verwendet eine vierstufige Pipeline: Zuerst wird das Bild aufgenommen und dann an ein Hintergrundrauschen-Modul gesendet, das ein GAN verwendet, das auf annotierten CAPTCHA-Beispielen trainiert wurde und daher in der Lage ist, Buchstaben von dem gestörten Hintergrund zu unterscheiden, auf dem sie ruhen. Die extrahierten Buchstaben werden dann weiter gefiltert, um jedes verbleibende Rauschen nach der GAN-basierten Extraktion zu entfernen.

Als nächstes wird eine Segmentierung auf dem extrahierten Text durchgeführt, der dann in das zu bestehende Zeichen zerlegt wird, indem Kontur-Erkennungsalgorithmen verwendet werden.

Zeichensegmentierung isoliert die Pixelgruppe und versucht, mit Randverfolgung zu erkennen.

Zeichensegmentierung isoliert die Pixelgruppe und versucht, mit Randverfolgung zu erkennen.

Schließlich werden die “geratenen” Zeichensegmente einer Zeichenerkennung durch ein Convolutional Neural Network (CNN) unterzogen.

Manchmal können Zeichen überlappen, ein Hyper-Kerning, das speziell dazu gedacht ist, maschinelle Systeme zu täuschen. DW-GAN verwendet daher intervalbasierte Segmentierung, um Ränder zu verstärken und zu isolieren und somit Zeichen effektiv zu trennen. Da die Wörter normalerweise Unsinn sind, gibt es keinen semantischen Kontext, der bei diesem Prozess helfen kann.

Ergebnisse

DW-GAN wurde gegen CAPTCHA-Bilder aus drei verschiedenen Dark-Web-Datensätzen sowie gegen einen beliebten CAPTCHA-Synthesizer getestet. Die Dark-Märkte, aus denen die Bilder stammten, umfassten zwei Kartenläden, Rescator-1 und Rescator-2, und einen neuen Satz von einem damals aufstrebenden Markt namens Yellow Brick (der berichtet wurde, später im Zuge der Abschaltung von DarkMarket verschwand).

Beispiele für CAPTCHAs aus den drei Datensätzen sowie dem Open-Source-CAPTCHA-Synthesizer.

Beispiele für CAPTCHAs aus den drei Datensätzen sowie dem Open-Source-CAPTCHA-Synthesizer.

Laut den Autoren wurde die für die Tests verwendete Datenempfehlung von Cyber-Threat-Intelligence-(CTI)-Experten aufgrund ihrer weiten Verbreitung in Dark-Net-Märkten getroffen.

Die Tests jedes Datensatzes umfassten die Entwicklung eines TOR-orientierten Spiders, der mit der Aufgabe betraut wurde, 500 CAPTCHA-Bilder zu sammeln, die anschließend von CTI-Beratern beschriftet und kuratiert wurden.

Drei Experimente wurden konzipiert. Das erste bewertete die allgemeine CAPTCHA-Überwindungsfähigkeit von DW-GAN gegenüber Standard-SOTA-Methoden. Die rivalisierenden Methoden waren Bild-Level-CNN mit Vorverarbeitung, die eine Umwandlung in Graustufen, Normalisierung und Gaußsche Glättung umfasste, eine gemeinsame akademische Anstrengung aus dem Iran und dem Vereinigten Königreich; Zeichen-Level-CNN mit intervalbasierter Segmentierung; und Bild-Level-CNN, von der University of Oxford im Vereinigten Königreich.

Ergebnisse von DW-GAN für das erste Experiment im Vergleich zu vorherigen State-of-the-Art-Ansätzen.

Ergebnisse von DW-GAN für das erste Experiment im Vergleich zu vorherigen State-of-the-Art-Ansätzen.

Die Forscher fanden heraus, dass DW-GAN in der Lage war, die vorherigen Ergebnisse zu verbessern (siehe Tabelle oben).

Das zweite Experiment war eine Ablationsstudie, bei der verschiedene Komponenten des aktiven Frameworks entfernt oder deaktiviert wurden, um die Möglichkeit auszuschließen, dass externe oder sekundäre Faktoren die Ergebnisse beeinflussen.

Ergebnisse der Ablationsstudie.

Ergebnisse der Ablationsstudie.

Auch hier fanden die Autoren heraus, dass die Deaktivierung wichtiger Abschnitte der Architektur die Leistung von DW-GAN in fast allen Fällen verringerte (siehe Tabelle oben).

Das dritte Offline-Experiment verglich die Wirksamkeit von DW-GAN gegenüber einer Benchmark-Bildmethode und zwei Zeichen-Level-Methoden, um den Umfang zu bestimmen, in dem die Zeichenauswertung von DW-GAN seine Nützlichkeit in Fällen beeinflusste, in denen ein Unsinn-CAPTCHA-Wort eine willkürliche (anstatt vordefinierte) Länge hatte. In diesen Fällen variierte die CAPTCHA-Länge zwischen 4 und 7 Zeichen.

Für dieses Experiment verwendeten die Autoren einen Trainingsdatensatz von 50.000 CAPTCHA-Bildern, von denen 5.000 für die Tests in einem typischen 90/10-Verhältnis reserviert wurden.

Auch hier übertraf DW-GAN die vorherigen Ansätze:

Live-Test auf einem Dark-Net-Markt

Schließlich wurde DW-GAN gegen den (damals live) Yellow-Brick-Dark-Net-Markt eingesetzt. Für diesen Test wurde ein Tor-Webbrowser entwickelt, der DW-GAN in seine Browsing-Funktionen integrierte, um CAPTCHA-Herausforderungen automatisch zu parsen.

In diesem Szenario wurde dem automatisierten Crawler für jeden 15. HTTP-Request im Durchschnitt ein CAPTCHA präsentiert. Der Crawler konnte 1.831 illegale Artikel zum Verkauf in Yellow Brick indexieren, darunter 1.223 drogenbezogene Produkte (einschließlich Opioiden und Kokain), 44 Hacking-Pakete und neun gefälschte Dokumentenscans. Insgesamt konnte das System 286 cybersecurity-bezogene Artikel identifizieren, darunter 102 entwendete Kreditkarten und 131 gestohlene Anmeldeinformationen.

Die Autoren stellen fest, dass DW-GAN in allen Fällen in der Lage war, ein CAPTCHA in drei oder weniger Versuchen zu knacken, und dass 76 Minuten Verarbeitungszeit erforderlich waren, um CAPTCHAs zu berücksichtigen, die alle 1.831 Produkte schützten. Es waren keine menschlichen Eingriffe erforderlich, und es traten keine Fälle von Endpunktfehler auf.

Die Autoren bemerken das Auftauchen von Herausforderungen, die einen höheren Grad an Raffinesse als Text-CAPTCHAs bieten, einschließlich solcher, die wie Turing-Tests zu sein scheinen, und beobachten, dass DW-GAN verbessert werden könnte, um diese neuen Trends zu berücksichtigen, wenn sie populär werden.

 

*Completely Automated Public Turing test to tell Computers and Humans Apart

Erstveröffentlicht am 11. Januar 2022.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.