Andersonův úhel

Řešení CAPTCHAs pomocí strojového učení pro umožnění výzkumu na temném webu

Publikováno 11. ledna 2022

Aktualizováno 24. května 2026

Martin Anderson

Společný akademický výzkumný projekt ze Spojených států vyvinul metodu, jak obejít testy CAPTCHA*, které údajně překonávají podobné stávající řešení strojového učení pomocí Generativních Adversativních Sítí (GAN) pro dekódování vizuálně složitých výzev.

Při testování nového systému proti nejlepšímu současnému rámci nalezli výzkumníci, že jejich metoda dosahuje více než 94,4% úspěchu na pečlivě vybrané reálné benchmarkové datové sadě a prokázala schopnost „eliminovat lidskou účast“ při navigaci na vyvíjejícím se temném webu Marketplace, automaticky řešící výzvy CAPTCHA během maximálně tří pokusů.

Architektura pro DW-GAN. Source: https://arxiv.org/pdf/2201.02799.pdf

Pracovní postup pro DW-GAN. Source: https://arxiv.org/pdf/2201.02799.pdf

Autorům se podařilo prokázat, že jejich přístup představuje průlom pro výzkumníky kybernetické bezpečnosti, kteří tradičně museli nést náklady na zajištění lidské účasti v řešení CAPTCHAs, obvykle prostřednictvím crowdsourcingových platforem, jako je Amazon Mechanical Turk (AMT).

Pokud se systém ukáže jako adaptabilní a odolný, může dále otevřít cestu pro více automatizované dohledové systémy a pro indexaci a web-scraping sítí TOR. To by mohlo umožnit škálovatelné a vysokovýkonné analýzy, stejně jako vývoj nových přístupů a technik kybernetické bezpečnosti, které byly dosud omezeny CAPTCHA bránami.

Článek paper je nazvaný Counteracting Dark Web Text-Based CAPTCHA with Generative Adversarial Learning for Proactive Cyber Threat Intelligence a pochází od výzkumníků z University of Arizona, University of South Florida a University of Georgia.

Důsledky

Jelikož systém – nazvaný Dark Web-GAN (DW-GAN, dostupný na GitHub) – je zřejmě mnohem výkonnější než jeho předchůdci, existuje možnost, že bude použit jako obecná metoda pro překonání (obvykle méně náročných) CAPTCHAs na standardním webu, buď v této konkrétní implementaci, nebo na základě obecných principů, které nový článek popisuje. Kvůli omezenému úložišti na GitHub je však目前 nutné kontaktovat vedoucího autora Ning Zhanga, aby získal data spojená s rámcem.

Protože DW-GAN má „pozitivní“ misi pro překonání CAPTCHAs (podobně jako TOR sám původně měl pozitivní misi pro ochranu vojenské komunikace a později i novinářů), a protože CAPTCHAs jsou både legitimitní obranou (často a kontroverzně používanou všudypřítomnou CDN gigantem CloudFlare) a oblíbeným nástrojem nelegitimních temných webových trhů, je přístup zřejmě „leveling“ technologií.

Autorům sami uznávají, že DW-GAN má širší použití:

‘[Zatímco] tato studie je hlavně zaměřena na dark-web CAPTCHA jako na složitější problém, navrhovaná metoda v této studii se očekává, že bude aplikovatelná na jiné typy CAPTCHAs bez ztráty obecnosti.’

Předpokládá se, že DW-GAN, nebo podobný systém, by musel být široce a zjevně rozšířen, aby temné webové trhy hledaly méně strojově rozpoznatelná řešení, nebo alespoň aby pravidelně měnily konfiguraci CAPTCHAs, „studená válka“ scénář.

Motivace

Jak článek pozoruje, temný web je primárním zdrojem hackerské inteligence týkající se kybernetických útoků, které jsou odhadovány stát globální ekonomice 10 bilionů dolarů do roku 2025. Proto cibulové sítě zůstávají relativně bezpečným prostředím pro nelegitimní temné webové komunity, které mohou odrazit útočníky různými metodami, včetně časových limitů relací, souborů cookie a uživatelské autentizace.

Dva typy CAPTCHAs, oba používající zakrytí pozadí a nakloněné písmo, aby je činily méně strojově čitelnými.

Autorům pozorují, že žádné z těchto překážek nejsou tak velké, jako je řada CAPTCHAs, které procházejí procházením „citlivých“ komunit:

‘Zatímco většina z těchto opatření může být účinně obejita implementací automatizovaných protiopatření v programu procházení, CAPTCHA je nejvíce brzdící anti-procházení opatření na temném webu, které nemůže být snadno obejito kvůli vysokým kognitivním schopnostem, které jsou často nevlastněny automatizačními nástroji’

Textové CAPTCHAs nejsou jediným dostupným řešením; existují varianty, známé mnoha z nás, které vyzývají uživatele k interpretaci videa, zvuku a zejména obrázků. Přesto, jak autoři pozorují, textové CAPTCHAs jsou současným výzvám pro temné webové trhy, a přirozeným místem pro začátek, aby se TOR sítě staly více náchylnými k strojové analýze.

Architektura

Ačkoli předchozí přístup od Northwest University v Číně používal Generativní Adversativní Sítě k odvození vzorových vzorců z platforem CAPTCHA, autoři nového článku pozorují, že tato metoda závisí na interpretaci rastrového obrázku, spíše než na hlubším zkoumání rozpoznaných písmen ve výzvě; a že účinnost DW-GAN není ovlivněna proměnlivou délkou nesmyslných slov (a čísel) typicky nalezených v temných webových CAPTCHAs.

DW-GAN používá čtyřfázový pipeline: nejprve je obraz zachycen a poté zpracován modulem pro odstranění pozadí, který používá GAN, který byl trénován na anotovaných vzorcích CAPTCHA, a je tedy schopen rozlišit písmena od rušivého pozadí, na kterém spočívají. Extrahovaná písmena jsou poté dále filtrována z jakéhokoli zbývajícího šumu po GAN-založeném extrahování.

Dále je provedena segmentace extrahovaného textu, který je poté rozdělen na to, co vypadá jako jednotlivých znaků, pomocí algoritmů pro detekci obrysů.

Segmentace znaků izoluje skupinu pixelů a snaží se o rozpoznání s pomocí obrysů.

Nakonec jsou „odhadnuté“ segmenty znaků podrobeny rozpoznání znaků pomocí Konvoluční Neuronové Sítě (CNN).

Často se stává, že znaky se překrývají, hyper-kerning, který je speciálně navržen, aby oklamal strojové systémy. DW-GAN proto používá intervalovou segmentaci pro zlepšení a izolaci hranic, efektivní oddělení znaků. Jelikož slova jsou obvykle nesmyslná, neexistuje žádný sémantický kontext, který by mohl pomoci v tomto procesu.

Výsledky

DW-GAN byl testován proti obrazům CAPTCHA ze tří různých temných webových datových sad, jakož i proti populárnímu syntetizátoru CAPTCHA. Temné trhy, ze kterých pocházely obrázky, se skládaly ze dvou karetních obchodů, Rescator-1 a Rescator-2, a z nové sady z nově vznikajícího trhu Yellow Brick (který byl hlášen jako později zmizelý v důsledku odstavení DarkMarketu).

Ukázky CAPTCHAs ze tří datových sad, jakož i otevřeného zdrojového syntetizátoru CAPTCHA.

Podle autorů byla data použita pro testování doporučena odborníky na kybernetickou hrozbu (CTI) na základě jejich širokého rozšíření v temných webových trzích.

Testování každé datové sady zahrnovalo vývoj TOR-obličeje pavouka, který shromažďoval 500 obrazů CAPTCHA, které byly poté označeny a kurátory CTI poradci.

Byly navrženy tři experimenty. První vyhodnotil obecný výkon DW-GAN proti standardním SOTA metodám. Soupeřící metody byly obrazová úroveň CNN s předzpracováním, zahrnující konverzi do šedé škály, normalizaci a gaussovské vyhlazování, společný akademický projekt z Íránu a Spojeného království; znaková úroveň CNN s intervalovou segmentací; a obrazová úroveň CNN, z University of Oxford ve Spojeném království.

Výsledky z DW-GAN pro první experiment, ve srovnání s předchozími stávajícími přístupy.

Výzkumníci nalezli, že DW-GAN byl schopen zlepšit předchozí výsledky napříč všemi testy (viz tabulka výše).

Druhý experiment byl ablační studie, kde byly různé komponenty aktivního rámce odstraněny nebo zablokovány, aby se vyloučila možnost, že vnější nebo sekundární faktory ovlivňují výsledky.

Výsledky ablační studie.

Zde autoři také nalezli, že deaktivace klíčových částí architektury snížila výkon DW-GAN ve většině případů (viz tabulka výše).

Třetí offline experiment porovnal účinnost DW-GAN proti benchmarkové obrazové metodě a dvěma znakovým metodám, aby se určilo, do jaké míry hodnocení znaků DW-GAN ovlivňuje jeho užitečnost v případech, kdy je CAPTCHA slovo libovolné (spíše než předem definované) délky. V těchto případech se délka CAPTCHA pohybovala mezi 4 a 7 znaky.

Pro tento experiment autoři použili trénovací sadu 50 000 obrazů CAPTCHA, s 5 000 rezervovanými pro testování v typickém 90/10 rozdělení.

I zde DW-GAN překonal předchozí přístupy:

Živý test na temném webovém trhu

Nakonec byl DW-GAN nasazen proti (tehdy živému) Yellow Brick temnému webovému trhu. Pro tento test byl vyvinut TOR-webový prohlížeč, který integroval DW-GAN do svých procházení, automaticky zpracovávající výzvy CAPTCHA.

V tomto scénáři byla CAPTCHA předložena automatizovanému procházení pro každých 15 HTTP požadavků, v průměru. Procházení bylo schopno indexovat 1 831 nelegálních položek k prodeji v Yellow Brick, včetně 1 223 drogových produktů (včetně opioidů a kokainu), 44 balíčků hackování a devíti padělaných dokumentů. Celkově systém identifikoval 286 položek souvisejících s kybernetickou bezpečností, včetně 102 ukradených kreditních karet a 131 ukradených přihlašovacích údajů.

Autorům uvádějí, že DW-GAN byl ve všech případech schopen rozlousknout CAPTCHA během tří nebo méně pokusů, a že 76 minut zpracování bylo nutné pro zpracování CAPTCHAs chránících všechny 1 831 produktů. Žádní lidé nebyli potřeba k zásahu, a nevykázaly se žádné případy selhání koncového bodu.

Autorům také poznamenávají, že se objevují nové výzvy, které nabízejí vyšší úroveň sofistikovanosti než textové CAPTCHAs, včetně těch, které se zdají být založeny na Turingových testech, a pozorují, že DW-GAN by mohl být vylepšen, aby zahrnoval tyto nové trendy, jakmile se stanou populárními.

*Completely Automated Public Turing test to tell Computers and Humans Apart

První publikace 11. ledna 2022.