Contáctenos

Resolución de CAPTCHA con aprendizaje automático para permitir la investigación en la web oscura

Ciberseguridad

Resolución de CAPTCHA con aprendizaje automático para permitir la investigación en la web oscura

mm

Un proyecto de investigación académica conjunto de los Estados Unidos ha desarrollado un método para frustrar las pruebas CAPTCHA*, superando supuestamente a soluciones similares de aprendizaje automático de última generación mediante el uso de redes generativas adversarias (GAN) para decodificar los desafíos visualmente complejos.

Al probar el nuevo sistema frente a los mejores marcos actuales, los investigadores descubrieron que su método alcanza más del 94.4 % de éxito en un conjunto de datos de referencia del mundo real cuidadosamente seleccionados y ha demostrado ser capaz de "eliminar la participación humana" al navegar por un mercado de Dark Net emergente altamente protegido por CAPTCHA, resolviendo automáticamente los desafíos CAPTCHA en un máximo de tres intentos.

Arquitectura para DW-GAN. Fuente: https://arxiv.org/pdf/2201.02799.pdf

Flujo de trabajo para DW-GAN. Fuente: https://arxiv.org/pdf/2201.02799.pdf

Los autores sostienen que su enfoque representa un gran avance para los investigadores de ciberseguridad, quienes tradicionalmente han tenido que asumir los costos de proporcionar humanos en el circuito para resolver manualmente los CAPTCHA, generalmente a través de plataformas de colaboración abierta como Amazon Mechanical Turk (AMT).

Si el sistema puede resultar adaptable y resistente, puede allanar aún más el camino para sistemas de supervisión más automatizados y para la indexación y el web scraping de las redes TOR. Esto podría permitir análisis escalables y de gran volumen, así como el desarrollo de nuevos enfoques y técnicas de ciberseguridad, que hasta la fecha se han visto obstaculizados por los firewalls CAPTCHA.

La se titula Contrarrestar el CAPTCHA basado en texto de la Dark Web con el aprendizaje antagónico generativo para la inteligencia proactiva de ciberamenazas, y proviene de investigadores de la Universidad de Arizona, la Universidad del Sur de Florida y la Universidad de Georgia.

Implicaciones

Dado que el sistema, llamado Dark Web-GAN (DW-GAN, disponible en GitHub) – es aparentemente mucho más performativo que sus predecesores, existe la posibilidad de que se utilice como un método general para superar el material CAPTCHA (generalmente menos difícil) en la web estándar, ya sea en esta implementación específica o basándose en el principios generales que se describen en el nuevo documento. Sin embargo, debido al almacenamiento limitado en GitHub, actualmente es necesario ponerse en contacto con el autor principal, Ning Zhang, para obtener los datos asociados con el marco.

Porque DW-GAN tiene una misión "positiva" para romper CAPTCHAs (así como TOR en sí originalmente tenía una misión positiva para proteger las comunicaciones militares y, más tarde, a los periodistas), y porque los CAPTCHAs son a la vez una defensa legítima (frecuente y controvertida) usado (por el omnipresente gigante de CDN CloudFlare) y una herramienta favorita de los mercados ilegítimos de la dark web, se podría decir que el enfoque es una tecnología de "nivelación".

Los propios autores admiten que DW-GAN tiene usos más amplios:

'[Si bien] este estudio se centra principalmente en el CAPTCHA de la web oscura como un problema más desafiante, se espera que el método propuesto en este estudio sea aplicable a otros tipos de CAPTCHA sin pérdida de generalidad'.

Se supone que DW-GAN, o un sistema similar, necesitaría difundirse de manera amplia y evidente para incitar a los mercados de la red oscura a buscar soluciones menos resolubles por máquinas, o al menos a desarrollar sus configuraciones CAPTCHA periódicamente, un escenario de "guerra fría".

Motivaciones

Como se observa en el documento, la web oscura es la principal fuente de inteligencia de los piratas informáticos en relación con los ataques cibernéticos, que son estimación de costará a la economía mundial $ 10 billones de dólares para 2025. Por lo tanto, las redes de cebolla siguen siendo un entorno relativamente seguro para las comunidades ilícitas de redes oscuras, que pueden repeler a los internos mediante varios métodos, incluidos los tiempos de espera de sesión, las cookies y la autenticación de usuarios.

Dos tipos de CAPTCHA, ambos con fondos ofuscadores y letras inclinadas para que sean menos legibles por máquina.

Dos tipos de CAPTCHA, ambos con fondos ofuscadores y letras inclinadas para que sean menos legibles por máquina.

Sin embargo, observan los autores, ninguno de estos obstáculos es tan grande como la serie de CAPTCHAS que marcan la experiencia de navegación en una comunidad "sensible":

'Si bien la mayoría de estas medidas se pueden eludir de manera efectiva mediante la implementación de contramedidas automatizadas en un programa de rastreo, CAPTCHA es la medida anti-rastreo más obstaculizadora en la red oscura que no se puede eludir fácilmente debido a las altas capacidades cognitivas que a menudo no poseen las herramientas de automatización'

Los CAPTCHA basados ​​en texto no son la única opción disponible; existen variantes, familiares para muchos de nosotros, que desafían al usuario a interpretar videos, audios y especialmente imágenes. No obstante, como observan los autores, CAPTCHA basado en texto es actualmente el desafío de la elección para los mercados de la web oscura y un punto de partida natural para hacer que las redes TOR sean más susceptibles al análisis de máquinas.

Arquitectura

Aunque un enfoque previo de la Universidad del Noroeste en China utilizó redes generativas antagónicas para derivar patrones de características de las plataformas CAPTCHA, los autores del nuevo artículo señalan que este método se basa en la interpretación de una imagen rasterizada, en lugar de un examen más profundo de las letras reconocidas en el desafío; y que la efectividad de DW-GAN no se ve afectada por la longitud variable de las palabras sin sentido (y de los números) que normalmente se encuentran en los CAPTCHA de la dark web.

DW-GAN utiliza una canalización de cuatro etapas: primero se captura la imagen y luego se envía a un módulo de eliminación de ruido de fondo que utiliza una GAN que ha sido entrenada en muestras de CAPTCHA anotadas y, por lo tanto, es capaz de distinguir letras del fondo perturbado que están descansando. Las letras extraídas luego se filtran aún más de cualquier ruido restante después de la extracción basada en GAN.

A continuación, se realiza la segmentación del texto extraído, que luego se descompone en lo que parecen ser caracteres constituyentes, utilizando algoritmos de detección de contornos.

La segmentación de caracteres aísla el grupo de píxeles e intenta el reconocimiento con el trazado de bordes.

La segmentación de caracteres aísla el grupo de píxeles e intenta el reconocimiento con el trazado de bordes.

Finalmente, los segmentos de caracteres “adivinados” están sujetos al reconocimiento de caracteres a través de una red neuronal convolucional (CNN).

A veces, los caracteres pueden superponerse, un hiper-kerning diseñado específicamente para engañar a los sistemas de las máquinas. Por lo tanto, DW-GAN utiliza la segmentación basada en intervalos para realzar y aislar los bordes, separando eficazmente los caracteres. Dado que las palabras suelen ser sin sentido, no existe un contexto semántico que facilite este proceso.

Resultados

DW-GAN se probó con imágenes CAPTCHA de tres conjuntos de datos diversos de la web oscura, así como con un popular sintetizador CAPTCHA. Los mercados oscuros de los que se originaron las imágenes comprendían dos tiendas de tarjetas, Rescator-1 y Rescator-2, y una novela ambientada en un mercado entonces emergente llamado Yellow Brick (que fue reportaron haber desaparecido más tarde a raíz del desmantelamiento de DarkMarket).

Muestre CAPTCHA de los tres conjuntos de datos, así como el sintetizador CAPTCHA de código abierto.

Muestre CAPTCHA de los tres conjuntos de datos, así como el sintetizador CAPTCHA de código abierto.

Según los autores, los datos utilizados en las pruebas fueron recomendados por expertos de Cyber ​​Threat Intelligence (CTI) en función de su amplia difusión en los mercados de la red oscura.

La prueba de cada conjunto de datos implicó el desarrollo de una araña orientada a TOR encargada de recopilar 500 imágenes CAPTCHA, que posteriormente fueron etiquetadas y seleccionadas por asesores de CTI.

Se diseñaron tres experimentos. El primero evaluó el rendimiento general de derrota de CAPTCHA de DW-GAN frente a los métodos estándar de SOTA. Los métodos rivales eran CNN a nivel de imagen con preprocesamiento, que incluye conversión de escala de grises, normalización y suavizado gaussiano, un esfuerzo académico conjunto de Irán y el Reino Unido; CNN a nivel de personaje con segmentación basada en intervalos; y CNN a nivel de imagen, de la Universidad de Oxford en el Reino Unido.

Resultados de DW-GAN para el primer experimento, en comparación con enfoques anteriores de última generación.

Resultados de DW-GAN para el primer experimento, en comparación con enfoques anteriores de última generación.

Los investigadores descubrieron que DW-GAN pudo mejorar los resultados anteriores en todos los ámbitos (consulte la tabla anterior).

El segundo experimento fue un estudio de ablación, en el que se eliminan o desactivan varios componentes del marco activo para descartar la posibilidad de que factores externos o secundarios estén influyendo en los resultados.

Resultados del estudio de ablación.

Resultados del estudio de ablación.

Aquí también, los autores encontraron que deshabilitar secciones clave de la arquitectura redujo el rendimiento de DW-GAN en casi todos los casos (consulte la tabla anterior).

El tercer experimento fuera de línea comparó la eficacia de DW-GAN con un método de referencia basado en imágenes y dos métodos a nivel de caracteres, para determinar en qué medida la evaluación de caracteres de DW-GAN influía en su utilidad en casos donde una palabra CAPTCHA sin sentido tenía una longitud arbitraria (en lugar de predefinida). En estos casos, la longitud del CAPTCHA variaba entre 4 y 7 caracteres.

Para este experimento, los autores utilizaron un conjunto de entrenamiento de 50,000 5,000 imágenes CAPTCHA, con 90 reservadas para probar en una división típica de 10/XNUMX.

Aquí también, DW-GAN superó los enfoques anteriores:

Prueba en vivo en un mercado de red oscura

Finalmente, DW-GAN se implementó contra el (entonces activo) mercado de la red oscura Yellow Brick. Para esta prueba, se desarrolló un navegador web Tor que integró DW-GAN en sus capacidades de navegación, analizando automáticamente los desafíos de CAPTCHA.

En este escenario, se presentó un CAPTCHA al rastreador automatizado por cada 15 solicitudes HTTP, en promedio. El rastreador pudo indexar 1,831 artículos ilegales a la venta en Yellow Brick, incluidos 1,223 productos relacionados con drogas (incluidos opioides y cocaína), 44 paquetes de piratería y nueve escaneos de documentos falsificados. En total, el sistema pudo identificar 286 elementos relacionados con la ciberseguridad, incluidas 102 tarjetas de crédito robadas y 131 inicios de sesión de cuentas robados.

Los autores afirman que DW-GAN pudo en todos los casos descifrar un CAPTCHA en tres intentos o menos, y que se necesitaron 76 minutos de tiempo de procesamiento para dar cuenta de los CAPTCHA que protegen los 1,831 productos. No se necesitaron humanos para intervenir, y no se produjeron casos de fallas en los puntos finales.

Los autores notan la aparición de desafíos que ofrecen un mayor nivel de sofisticación que los CAPTCHA de texto, incluidos algunos que parecen modelados en las pruebas de Turing, y observan que DW-GAN podría mejorarse para adaptarse a estas nuevas tendencias a medida que se vuelven populares.

 

*Completamente prueba de Turing pública y automática para contar máquinas y humanos

Publicado por primera vez el 11 de enero de 2022.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai