Internet-Sicherheit
Lösen von CAPTCHAs mit maschinellem Lernen, um Dark-Web-Forschung zu ermöglichen

Ein gemeinsames akademisches Forschungsprojekt aus den Vereinigten Staaten hat eine Methode zur Umgehung von CAPTCHA*-Tests entwickelt, die Berichten zufolge Ă€hnliche hochmoderne Lösungen fĂŒr maschinelles Lernen durch den Einsatz von Generative Adversarial Networks ĂŒbertrifft (GANs), um die visuell komplexen Herausforderungen zu entschlĂŒsseln.
Beim Testen des neuen Systems anhand der besten aktuellen Frameworks stellten die Forscher fest, dass ihre Methode bei einem sorgfĂ€ltig zusammengestellten realen Benchmark-Datensatz eine Erfolgsquote von ĂŒber 94.4 % erreicht und sich als in der Lage erwiesen hat, âmenschliche Eingriffe zu eliminierenâ, wenn man auf einem stark CAPTCHA-geschĂŒtzten, aufstrebenden Darknet-Marktplatz navigiert, indem sie CAPTCHA-Herausforderungen automatisch in maximal drei Versuchen löst.
Die Autoren behaupten, dass ihr Ansatz einen Durchbruch fĂŒr Cybersicherheitsforscher darstellt, die traditionell die Kosten fĂŒr die Bereitstellung von Human-in-the-Loop tragen mussten, um CAPTCHAs manuell zu lösen, normalerweise ĂŒber Crowdsourcing-Plattformen wie Amazon Mechanical Turk (AMT).
Wenn sich das System als anpassungsfĂ€hig und belastbar erweisen kann, könnte es den Weg fĂŒr stĂ€rker automatisierte Ăberwachungssysteme sowie fĂŒr die Indizierung und das Web-Scraping von TOR-Netzwerken ebnen. Dies könnte skalierbare und umfangreiche Analysen sowie die Entwicklung neuer CybersicherheitsansĂ€tze und -techniken ermöglichen, die bisher durch CAPTCHA-Firewalls behindert wurden.
Die Lebensdauer eines Krepppapier ist betitelt Gegen textbasiertes CAPTCHA im Dark Web mit generativem gegnerischem Lernen fĂŒr proaktive Cyber-Bedrohungsintelligenz vorgehen, und stammt von Forschern der University of Arizona, der University of South Florida und der University of Georgia.
Folgen
Da das System â genannt Dark Web-GAN (DW-GAN, verfĂŒgbar auf GitHub) â ist offenbar so viel performativer als seine VorgĂ€nger, dass die Möglichkeit besteht, dass es als allgemeine Methode zur Ăberwindung des (normalerweise weniger schwierigen) CAPTCHA-Materials im Standard-Web verwendet wird, entweder in dieser spezifischen Implementierung oder basierend auf dem allgemeine GrundsĂ€tze, die das neue Papier umreiĂt. Aufgrund des begrenzten Speicherplatzes auf GitHub ist es derzeit jedoch erforderlich, den Hauptautor Ning Zhang zu kontaktieren, um die mit dem Framework verbundenen Daten zu erhalten.
Weil DW-GAN eine âpositiveâ Mission hat, CAPTCHAs zu knacken (so wie TOR selbst ursprĂŒnglich eine positive Mission hatte, militĂ€rische Kommunikation und spĂ€ter Journalisten zu schĂŒtzen), und weil CAPTCHAs sowohl eine legitime Verteidigung sind (hĂ€ufig und kontrovers benutzt Der Ansatz ist ein beliebtes Tool illegaler Darknet-MarktplĂ€tze und wird vom allgegenwĂ€rtigen CDN-Riesen CloudFlare bereitgestellt. Man könnte also sagen, dass es sich bei diesem Ansatz um eine âNivellierungstechnologieâ handelt.
Die Autoren selbst rÀumen ein, dass DW-GAN weitreichendere Einsatzmöglichkeiten hat:
â[Obwohl] sich diese Studie hauptsĂ€chlich auf Dark-Web-CAPTCHAs als anspruchsvolleres Problem konzentriert, wird erwartet, dass die in dieser Studie vorgeschlagene Methode ohne EinschrĂ€nkung der AllgemeingĂŒltigkeit auch auf andere Arten von CAPTCHAs anwendbar ist.â
Vermutlich mĂŒsste DW-GAN oder ein Ă€hnliches System weit und deutlich verbreitet werden, um die Dark-Web-MĂ€rkte dazu zu bewegen, nach weniger maschinenlösbaren Lösungen zu suchen oder zumindest ihre CAPTCHA-Konfigurationen regelmĂ€Ăig weiterzuentwickeln â ein Szenario des âKalten Kriegesâ.
Motivationen
Wie das Papier feststellt, ist das Dark Web die primĂ€re Quelle der Hacker-Informationen im Zusammenhang mit Cyber-Angriffen geschĂ€tzt wird die Weltwirtschaft bis 10 2025 Billionen US-Dollar kosten. Daher bleiben Zwiebelnetzwerke eine relativ sichere Umgebung fĂŒr illegale Dark-Net-Gemeinschaften, die Eindringlinge mit verschiedenen Methoden abwehren können, darunter SitzungszeitĂŒberschreitungen, Cookies und Benutzerauthentifizierung.

Zwei Arten von CAPTCHAs, die beide verschleiernde HintergrĂŒnde und geneigte Buchstaben verwenden, um sie weniger maschinenlesbar zu machen.
Die Autoren stellen jedoch fest, dass keines dieser Hindernisse so groĂ ist wie die vielen CAPTCHAs, die das Surferlebnis in einer âsensiblenâ Community beeintrĂ€chtigen:
âDie meisten dieser MaĂnahmen lassen sich zwar durch die Implementierung automatisierter GegenmaĂnahmen in einem Crawler-Programm effektiv umgehen, doch CAPTCHA ist die hinderlichste Anti-Crawling-MaĂnahme im Darknet. Sie lĂ€sst sich aufgrund der hohen kognitiven FĂ€higkeiten, die Automatisierungstools oft nicht bieten, nicht so leicht umgehen.â
Textbasierte CAPTCHAs sind nicht die einzige verfĂŒgbare Option; Es gibt Varianten, die vielen von uns bekannt sind und den Benutzer dazu herausfordern, Video, Audio und insbesondere Bilder zu interpretieren. Dennoch ist, wie die Autoren feststellen, textbasiertes CAPTCHA dies derzeit die Herausforderung der Wahl fĂŒr Dark-Web-MĂ€rkte und ein natĂŒrlicher Ausgangspunkt, um TOR-Netzwerke anfĂ€lliger fĂŒr maschinelle Analysen zu machen.
Architektur
Obwohl ein frĂŒherer Ansatz der Northwest University in China Generative Adversarial Networks nutzte, um Merkmalsmuster von CAPTCHA-Plattformen abzuleiten, weisen die Autoren des neuen Artikels darauf hin, dass diese Methode auf der Interpretation eines gerasterten Bildes beruht und nicht auf einer genaueren Untersuchung der in der Herausforderung erkannten Buchstaben. Zudem wird die EffektivitĂ€t von DW-GAN nicht durch die variable LĂ€nge von Unsinnswörtern (und Zahlen) beeintrĂ€chtigt, die typischerweise in Dark-Web-CAPTCHAs zu finden sind.
DW-GAN verwendet eine vierstufige Pipeline: Zuerst wird das Bild erfasst und dann einem Modul zur Hintergrundentrauschung zugefĂŒhrt, das ein GAN verwendet, das anhand annotierter CAPTCHA-Beispiele trainiert wurde und daher in der Lage ist, Buchstaben von dem gestörten Hintergrund, den sie enthalten, zu unterscheiden ruhen darauf. Die extrahierten Buchstaben werden dann nach der GAN-basierten Extraktion weiter aus dem verbleibenden Rauschen herausgefiltert.
AnschlieĂend wird der extrahierte Text segmentiert und mithilfe von Konturerkennungsalgorithmen in scheinbar konstituierende Zeichen zerlegt.

Durch die Zeichensegmentierung wird die Pixelgruppe isoliert und versucht, sie mithilfe der Randverfolgung zu erkennen.
AbschlieĂend werden die âerratenenâ Zeichensegmente einer Zeichenerkennung ĂŒber ein Convolutional Neural Network (CNN) unterzogen.

Manchmal ĂŒberlappen sich Zeichen, ein sogenanntes Hyper-Kerning, das speziell dazu dient, Maschinensysteme zu tĂ€uschen. DW-GAN nutzt daher intervallbasierte Segmentierung, um RĂ€nder hervorzuheben und zu isolieren und so Zeichen effektiv zu trennen. Da die Wörter meist Unsinn sind, gibt es keinen semantischen Kontext, der diesen Prozess unterstĂŒtzt.

Ergebnisse
DW-GAN wurde anhand von CAPTCHA-Bildern aus drei verschiedenen Dark-Web-DatensÀtzen sowie einem beliebten CAPTCHA-Synthesizer getestet. Zu den dunklen MÀrkten, von denen die Bilder stammten, gehörten zwei KardiergeschÀfte, Rescator-1 und Rescator-2, und ein neuartiges Set aus einem damals aufstrebenden Markt namens Yellow Brick (das war berichtet (die spÀter im Zuge der Abschaltung von DarkMarket verschwunden sein sollen).

Beispiel-CAPTCHAs aus den drei DatensÀtzen sowie der Open-Source-CAPTCHA-Synthesizer.
Den Autoren zufolge wurden die in den Tests verwendeten Daten von Cyber ââThreat Intelligence (CTI)-Experten aufgrund ihrer weiten Verbreitung in Dark-Net-MĂ€rkten empfohlen.
Das Testen jedes Datensatzes umfasste die Entwicklung einer TOR-seitigen Spinne, deren Aufgabe es war, 500 CAPTCHA-Bilder zu sammeln, die anschlieĂend von CTI-Beratern beschriftet und kuratiert wurden.
Drei Experimente wurden entwickelt. Der erste bewertete die allgemeine CAPTCHA-besiegende Leistung von DW-GAN im Vergleich zu Standard-SOTA-Methoden. Die konkurrierenden Methoden waren CNN auf Bildebene mit Vorverarbeitung, einschlieĂlich Graustufenkonvertierung, Normalisierung und GauĂscher GlĂ€ttung, eine gemeinsame akademische Anstrengung des Iran und des Vereinigten Königreichs; CNN auf Zeichenebene mit intervallbasierter Segmentierung; Und CNN auf Bildebene, von der UniversitĂ€t Oxford im Vereinigten Königreich.

Ergebnisse von DW-GAN fĂŒr das erste Experiment im Vergleich zu frĂŒheren AnsĂ€tzen auf dem neuesten Stand der Technik.
Die Forscher fanden heraus, dass DW-GAN frĂŒhere Ergebnisse auf ganzer Linie verbessern konnte (siehe Tabelle oben).
Beim zweiten Experiment handelte es sich um eine Ablationsstudie, bei der verschiedene Komponenten des aktiven GerĂŒsts entfernt oder deaktiviert wurden, um die Möglichkeit auszuschlieĂen, dass externe oder sekundĂ€re Faktoren die Ergebnisse beeinflussen.

Ergebnisse der Ablationsstudie.
Auch hier stellten die Autoren fest, dass die Deaktivierung wichtiger Teile der Architektur die Leistung von DW-GAN in fast allen FĂ€llen verringerte (siehe Tabelle oben).
Im dritten Offline-Experiment wurde die Wirksamkeit von DW-GAN mit einer bildbasierten Benchmark-Methode und zwei zeichenbasierten Methoden verglichen, um zu ermitteln, inwieweit die Zeichenauswertung von DW-GAN dessen NĂŒtzlichkeit in FĂ€llen beeinflusste, in denen ein unsinniges CAPTCHA-Wort eine beliebige (und nicht vordefinierte) LĂ€nge hatte. In diesen FĂ€llen variierte die CAPTCHA-LĂ€nge zwischen 4 und 7 Zeichen.
FĂŒr dieses Experiment verwendeten die Autoren einen Trainingssatz von 50,000 CAPTCHA-Bildern, wobei 5,000 fĂŒr Tests in einer typischen 90/10-Aufteilung reserviert waren.
Auch hier ĂŒbertraf DW-GAN frĂŒhere AnsĂ€tze:

Live-Test auf einem Darknet-Markt
SchlieĂlich wurde DW-GAN gegen den (damals aktiven) Dark-Net-Markt Yellow Brick eingesetzt. FĂŒr diesen Test wurde ein Tor-Webbrowser entwickelt, der DW-GAN in seine Browsing-Funktionen integriert und CAPTCHA-Herausforderungen automatisch analysiert.
In diesem Szenario wurde dem automatisierten Crawler durchschnittlich alle 15 HTTP-Anfragen ein CAPTCHA vorgelegt. Der Crawler konnte 1,831 illegale Artikel zum Verkauf in Yellow Brick indizieren, darunter 1,223 drogenbezogene Produkte (einschlieĂlich Opioide und Kokain), 44 Hacking-Pakete und neun gefĂ€lschte Dokumentenscans. Insgesamt konnte das System 286 CybersicherheitsgegenstĂ€nde identifizieren, darunter 102 entwendete Kreditkarten und 131 gestohlene Konto-Logins.
Die Autoren geben an, dass DW-GAN in allen FĂ€llen in der Lage war, ein CAPTCHA in drei oder weniger Versuchen zu knacken, und dass 76 Minuten Verarbeitungszeit erforderlich waren, um CAPTCHAs zum Schutz aller 1,831 Produkte zu berĂŒcksichtigen. Es waren keine menschlichen Eingriffe erforderlich und es kam zu keinem Endpunktausfall.
Die Autoren bemerken das Auftauchen von Herausforderungen, die ein höheres Maà an KomplexitÀt bieten als Text-CAPTCHAs, darunter einige, die auf Turing-Tests modelliert zu sein scheinen, und stellen fest, dass DW-GAN verbessert werden könnte, um diesen neuen Trends Rechnung zu tragen, sobald sie populÀrer werden.
*VollstÀndig automatisiert öffentlichen Turing-Test Neben Computer und Menschen zu sagen,
Erstveröffentlichung am 11. Januar 2022.













