Cibersegurança

Resolvendo CAPTCHAs Com Aprendizado de Máquina para Habilitar Pesquisa na Dark Web

Published January 11, 2022

Updated April 5, 2026

Martin Anderson

Um projeto de pesquisa acadêmica conjunto dos Estados Unidos desenvolveu um método para frustrar testes CAPTCHA*, relatando superar soluções de aprendizado de máquina semelhantes e de última geração por usar Redes Adversárias Generativas (GANs) para decodificar os desafios visualmente complexos.

Testando o novo sistema contra os melhores frameworks atuais, os pesquisadores encontraram que seu método alcança mais de 94,4% de sucesso em um conjunto de dados do mundo real cuidadosamente curado e provou ser capaz de ‘eliminar a participação humana’ ao navegar em um mercado emergente da Dark Net altamente protegido por CAPTCHA, resolvendo automaticamente desafios CAPTCHA em no máximo três tentativas.

Arquitetura para DW-GAN. Fonte: https://arxiv.org/pdf/2201.02799.pdf

Fluxo de trabalho para DW-GAN. Fonte: https://arxiv.org/pdf/2201.02799.pdf

Os autores afirmam que sua abordagem representa uma conquista para os pesquisadores de cibersegurança, que tradicionalmente tiveram que arcar com os custos de fornecer humanos no loop para resolver CAPTCHAs manualmente, geralmente por meio de plataformas de crowdsourcing, como Amazon Mechanical Turk (AMT).

Se o sistema puder provar ser adaptável e resiliente, pode pavimentar o caminho para sistemas de supervisão mais automatizados e para o indexamento e web-scraping de redes TOR. Isso poderia permitir análises em grande escala e de alto volume, bem como o desenvolvimento de novas abordagens e técnicas de cibersegurança, que foram limitadas, até o momento, por firewalls CAPTCHA.

O artigo é intitulado Contrarrestando CAPTCHA de Texto da Dark Web com Aprendizado Adversário Generativo para Inteligência de Ameaças Cibernéticas Proativa e vem de pesquisadores da Universidade do Arizona, da Universidade do Sul da Flórida e da Universidade da Geórgia.

Implicações

Desde que o sistema – chamado Dark Web-GAN (DW-GAN, disponível no GitHub) – é aparentemente muito mais performático do que seus antecessores, há a possibilidade de que ele será usado como um método geral para superar o material CAPTCHA (usualmente menos difícil) na web padrão, seja nesta implementação específica ou com base nos princípios gerais que o novo artigo esboça. Devido ao armazenamento limitado no GitHub, entretanto, é necessário atualmente contatar o autor principal Ning Zhang para obter os dados associados ao framework.

Porque DW-GAN tem uma ‘missão positiva’ para quebrar CAPTCHAs (assim como TOR originalmente teve uma missão positiva para proteger comunicações militares e, mais tarde, jornalistas), e porque CAPTCHAs são tanto uma defesa legítima (frequentemente e controversamente usada pela gigante ubíqua de CDN CloudFlare) e uma ferramenta favorita de mercados ilegítimos da dark web, a abordagem é arguivelmente uma tecnologia ‘niveladora’.

Os autores mesmos admitem que DW-GAN tem usos mais amplos:

‘[Enquanto] este estudo é principalmente focado em CAPTCHA da dark web como um problema mais desafiador, o método proposto neste estudo é esperado para ser aplicável a outros tipos de CAPTCHA sem perda de generalidade.’

Presumivelmente DW-GAN, ou um sistema semelhante, precisaria se tornar amplamente e evidentemente difundido para promover que os mercados da dark web buscassem soluções menos resolvíveis por máquina, ou pelo menos para evoluir suas configurações de CAPTCHA periodicamente, um cenário de ‘guerra fria’.

Motivações

Como o artigo observa, a dark web é a principal fonte de inteligência de hackers relacionada a ataques cibernéticos, que são estimados em custar à economia global $10 trilhões de dólares até 2025. Portanto, redes onion permanecem um ambiente relativamente seguro para comunidades ilegítimas da dark net, que podem repelir invasores por vários métodos, incluindo timeouts de sessão, cookies e autenticação de usuário.

Dois tipos de CAPTCHA, ambos usando fundos ofuscantes e letras inclinadas para torná-los menos legíveis por máquina.

No entanto, os autores observam, nenhuma dessas barreiras é tão grande quanto a série de CAPTCHAs que pontuam a experiência de navegação em uma ‘comunidade sensível’:

‘Enquanto a maioria dessas medidas pode ser efetivamente contornada implementando contramedidas automatizadas em um programa de crawler, CAPTCHA é a medida anti-crawling mais prejudicial na dark web que não pode ser facilmente contornada devido às altas capacidades cognitivas que são frequentemente não possuídas por ferramentas de automação’

CAPTCHAs baseados em texto não são a única opção disponível; existem variantes, familiares para muitos de nós, que desafiam o usuário a interpretar vídeo, áudio e especialmente imagens. No entanto, como os autores observam, CAPTCHA baseado em texto é atualmente o desafio de escolha para mercados da dark web, e um ponto de partida natural para tornar redes TOR mais suscetíveis à análise de máquina.

Arquitetura

Embora uma abordagem anterior da Northwest University na China tenha usado Redes Adversárias Generativas para derivar padrões de recursos de plataformas CAPTCHA, os autores do novo artigo notam que esse método depende da interpretação de uma imagem rasterizada, em vez de um exame mais profundo das letras reconhecidas no desafio; e que a eficácia de DW-GAN não é afetada pelo comprimento variável de palavras sem sentido (e de números) que são normalmente encontrados em CAPTCHAs da dark web.

DW-GAN usa um pipeline de quatro etapas: primeiro, a imagem é capturada e, em seguida, alimentada em um módulo de denoising de fundo que usa um GAN que foi treinado em amostras CAPTCHA anotadas e, portanto, é capaz de distinguir letras do fundo perturbado em que elas estão. As letras extraídas são, em seguida, filtradas para remover qualquer ruído remanescente após a extração baseada em GAN.

Em seguida, a segmentação é realizada no texto extraído, que é então dividido em caracteres constituintes, usando algoritmos de detecção de contorno.

Segmentação de caracteres isola o grupo de pixels e tenta reconhecimento com rastreamento de bordo.

Finalmente, os segmentos de caracteres ‘adivinhados’ são submetidos a reconhecimento de caracteres por meio de uma Rede Neural Convolucional (CNN).

Às vezes, os caracteres podem sobrepor-se, um hiper-ajuste que é especificamente projetado para enganar sistemas de máquina. DW-GAN, portanto, usa segmentação baseada em intervalo para melhorar e isolar bordos, separando efetivamente os caracteres. Como as palavras são geralmente sem sentido, não há contexto semântico para auxiliar nesse processo.

Resultados

DW-GAN foi testado contra imagens CAPTCHA de três conjuntos de dados da dark web diversificados, bem como um popular sintetizador CAPTCHA. Os mercados da dark web de onde as imagens originaram compreendiam duas lojas de cartões, Rescator-1 e Rescator-2, e um conjunto novo de um mercado emergente chamado Yellow Brick (que foi relatado para ter desaparecido posteriormente na esteira da derrubada do DarkMarket).

Amostras de CAPTCHAs dos três conjuntos de dados, bem como o sintetizador CAPTCHA de código aberto.

De acordo com os autores, os dados usados no teste foram recomendados por especialistas em Inteligência de Ameaças Cibernéticas (CTI) com base em sua ampla difusão em mercados da dark web.

O teste de cada conjunto de dados envolveu o desenvolvimento de um spider voltado para TOR para coletar 500 imagens CAPTCHA, que foram subsequentemente rotuladas e curadas por consultores da CTI.

Três experimentos foram concebidos. O primeiro avaliou o desempenho geral de DW-GAN contra métodos SOTA padrão. Os métodos rivais foram CNN de nível de imagem com pré-processamento, envolvendo conversão para escala de cinza, normalização e suavização gaussiana, um esforço acadêmico conjunto do Irã e do Reino Unido; CNN de nível de caractere com segmentação baseada em intervalo; e CNN de nível de imagem, da Universidade de Oxford no Reino Unido.

Resultados de DW-GAN para o primeiro experimento, comparados a abordagens anteriores de última geração.

Os pesquisadores encontraram que DW-GAN foi capaz de melhorar os resultados anteriores em todos os aspectos (veja a tabela acima).

O segundo experimento foi um estudo de ablação, onde vários componentes do framework ativo são removidos ou desabilitados para descartar a possibilidade de que fatores externos ou secundários estejam influenciando os resultados.

Resultados do estudo de ablação.

Aqui também, os autores encontraram que desabilitar seções-chave da arquitetura reduziu o desempenho de DW-GAN em quase todos os casos (veja a tabela acima).

O terceiro experimento offline comparou a eficácia de DW-GAN contra um método baseado em imagem e dois métodos de nível de caractere, para determinar a extensão com que a avaliação de caractere de DW-GAN influenciou sua utilidade em casos em que uma palavra CAPTCHA sem sentido era de comprimento arbitrário (em vez de pré-definido). Nesses casos, o comprimento do CAPTCHA variou entre 4 a 7 caracteres.

Para este experimento, os autores usaram um conjunto de treinamento de 50.000 imagens CAPTCHA, com 5.000 reservados para teste em uma divisão típica de 90/10.

Aqui também, DW-GAN superou as abordagens anteriores:

Teste ao Vivo em um Mercado da Dark Net

Finalmente, DW-GAN foi implantado contra o (então ativo) mercado da dark net Yellow Brick. Para este teste, um navegador web TOR foi desenvolvido que integrava DW-GAN em suas capacidades de navegação, analisando automaticamente desafios CAPTCHA.

Nesse cenário, um CAPTCHA foi apresentado ao crawler automatizado a cada 15 solicitações HTTP, em média. O crawler foi capaz de indexar 1.831 itens ilegais à venda no Yellow Brick, incluindo 1.223 produtos relacionados a drogas (incluindo opioides e cocaína), 44 pacotes de hacking e nove digitalizações de documentos forjados. No total, o sistema foi capaz de identificar 286 itens relacionados à cibersegurança, incluindo 102 cartões de crédito roubados e 131 logins de conta roubados.

Os autores afirmam que DW-GAN foi capaz de quebrar um CAPTCHA em três ou menos tentativas e que 76 minutos de tempo de processamento foram necessários para contabilizar CAPTCHAs que guardavam todos os 1.831 produtos. Nenhum humano foi necessário para intervir e nenhum caso de falha de endpoint ocorreu.

Os autores notam a emergência de desafios que oferecem um nível maior de sofisticação do que CAPTCHAs de texto, incluindo alguns que parecem modelados em testes de Turing, e observam que DW-GAN poderia ser aprimorado para acomodar essas novas tendências à medida que elas se tornam populares.

*Teste de Turing Público Completely Automatizado para Distinguir Computadores e Humanos

Publicado pela primeira vez em 11 de janeiro de 2022.