Angle dâAnderson
RĂ©soudre les CAPTCHAs avec l’apprentissage automatique pour permettre la recherche sur le dark web

Un projet de recherche universitaire conjoint aux États-Unis a développé une méthode pour contourner les tests CAPTCHA*, rapportant qu’il surpasse les solutions d’apprentissage automatique similaires actuelles en utilisant des réseaux antagonistes génératifs (GAN) pour décoder les défis visuellement complexes.
Lorsque le nouveau système a été testé contre les meilleurs cadres actuels, les chercheurs ont constaté que leur méthode atteint plus de 94,4 % de réussite sur un ensemble de données du monde réel soigneusement sélectionné, et s’est avérée capable d’éliminer l’intervention humaine lors de la navigation sur un marché émergent du dark net fortement protégé par CAPTCHA, en résolvant automatiquement les défis CAPTCHA en un maximum de trois tentatives.
Les auteurs affirment que leur approche représente une avancée pour les chercheurs en cybersécurité, qui traditionnellement ont dû supporter les coûts de la fourniture de personnes dans la boucle pour résoudre manuellement les CAPTCHAs, généralement via des plateformes de crowdsourcing telles que Amazon Mechanical Turk (AMT).
Si le système peut se révéler adaptable et résilient, il peut ouvrir la voie à des systèmes de surveillance plus automatisés, et à l’indexation et au scraping de réseaux TOR. Cela pourrait permettre des analyses à grande échelle et à haut volume, ainsi que le développement de nouvelles approches et techniques de cybersécurité, qui ont été entravées jusqu’à présent par les pare-feu CAPTCHA.
Le document s’intitule Contre les CAPTCHAs de texte du dark web avec un apprentissage génératif antagoniste pour une intelligence de menace proactive, et provient de chercheurs de l’Université de l’Arizona, de l’Université de Floride du Sud et de l’Université de Géorgie.
Implications
Puisque le système – appelé Dark Web-GAN (DW-GAN, disponible sur GitHub) – est apparemment beaucoup plus performant que ses prédécesseurs, il y a la possibilité qu’il sera utilisé comme méthode générale pour surmonter le matériel CAPTCHA (généralement moins difficile) sur le web standard, soit dans cette mise en œuvre spécifique, soit sur la base des principes généraux que la nouvelle étude décrit. En raison de la limitation de stockage sur GitHub, cependant, il est actuellement nécessaire de contacter l’auteur principal Ning Zhang pour obtenir les données associées au cadre.
Parce que DW-GAN a une mission « positive » pour briser les CAPTCHAs (tout comme TOR lui-même avait à l’origine une mission positive pour protéger les communications militaires et, plus tard, les journalistes), et parce que les CAPTCHAs sont à la fois une défense légitime (fréquemment et controversée utilisée par le géant du CDN CloudFlare) et un outil préféré des marchés illicites du dark web, l’approche est en fait une « technologie de nivellement ».
Les auteurs eux-mêmes concèdent que DW-GAN a des utilisations plus larges :
‘[Bien que] cette étude se concentre principalement sur les CAPTCHAs du dark web comme problème plus difficile, la méthode proposée dans cette étude est susceptible d’être applicable à d’autres types de CAPTCHAs sans perte de généralité.’
Présumablement, DW-GAN, ou un système similaire, devrait devenir largement et évidemment diffusé pour inciter les marchés du dark web à rechercher des solutions moins résolubles par machine, ou au moins à faire évoluer leurs configurations CAPTCHA périodiquement, un scénario de « guerre froide ».
Motivations
Comme le constate le document, le dark web est la principale source d’intelligence de hacker liée aux attaques de cybersécurité, qui sont estimées à coûter 10 billions de dollars USD à l’économie mondiale d’ici 2025. Par conséquent, les réseaux onion restent un environnement relativement sûr pour les communautés illicites du dark net, qui peuvent repousser les intrus par divers moyens, notamment des timeouts de session, des cookies et une authentification utilisateur.

Deux types de CAPTCHA, tous deux utilisant des arrière-plans obscurcis et des lettres inclinées pour les rendre moins lisibles par machine.
Cependant, les auteurs observent que none de ces obstacles n’est aussi grand que le groupe de CAPTCHAs qui ponctuent l’expérience de navigation dans une « communauté sensible » :
‘Alors que la plupart de ces mesures peuvent être efficacement contournées en mettant en œuvre des contre-mesures automatisées dans un programme de crawl, le CAPTCHA est la mesure anti-crawl la plus gênante du dark web qui ne peut pas être facilement contournée en raison des capacités cognitives élevées qui sont souvent détenues par les outils d’automatisation.’
Les CAPTCHAs basés sur le texte ne sont pas la seule option disponible ; il existe des variantes, familières à beaucoup d’entre nous, qui obligent l’utilisateur à interpréter des vidéos, des audio et surtout des images. Néanmoins, comme le constatent les auteurs, les CAPTCHAs basés sur le texte sont actuellement le défi de choix pour les marchés du dark web, et un point de départ naturel pour rendre les réseaux TOR plus sensibles à l’analyse par machine.
Architecture
Bien qu’une approche antérieure de l’Université du Nord-Ouest en Chine ait utilisé des réseaux antagonistes génératifs pour dériver des modèles de fonctionnalités à partir de plateformes CAPTCHA, les auteurs de la nouvelle étude notent que cette méthode repose sur l’interprétation d’une image rasterisée, plutôt que sur un examen plus approfondi des lettres reconnues dans le défi ; et que l’efficacité de DW-GAN n’est pas affectée par la longueur variable des mots sans sens (et des nombres) qui sont généralement trouvés dans les CAPTCHAs du dark web.
DW-GAN utilise un pipeline à quatre étapes : tout d’abord, l’image est capturée, puis alimentée dans un module de débruitage de l’arrière-plan qui utilise un GAN qui a été formé sur des échantillons CAPTCHA annotés, et est donc capable de distinguer les lettres du fond perturbé sur lequel elles reposent. Les lettres extraites sont ensuite filtrées pour éliminer tout bruit résiduel après l’extraction basée sur le GAN.
Ensuite, une segmentation est effectuée sur le texte extrait, qui est ensuite divisé en ce qui semble être des caractères constitutifs, à l’aide d’algorithmes de détection de contours.

La segmentation de caractères isole le groupe de pixels et tente de reconnaissance avec un traçage de bordure.
Enfin, les segments de caractères « devinés » sont soumis à une reconnaissance de caractères via un réseau de neurones convolutionnel (CNN).

Parfois, les caractères peuvent se chevaucher, un hyper-espacement conçu spécifiquement pour tromper les systèmes de machine. DW-GAN utilise donc une segmentation basée sur les intervalles pour améliorer et isoler les bordures, séparant efficacement les caractères. Puisque les mots sont généralement sans sens, il n’y a pas de contexte sémantique pour aider dans ce processus.

Résultats
DW-GAN a été testé contre des images CAPTCHA de trois ensembles de données diversifiés du dark web, ainsi que contre un synthétiseur CAPTCHA populaire. Les marchés du dark web à partir desquels les images provenaient comprenaient deux magasins de cartes, Rescator-1 et Rescator-2, et un nouvel ensemble à partir d’un marché émergent appelé Yellow Brick (qui a été signalé avoir plus tard disparu à la suite de la fermeture de DarkMarket).

Exemples de CAPTCHAs des trois ensembles de données, ainsi que du synthétiseur CAPTCHA open source.
Selon les auteurs, les données utilisées pour les tests ont été recommandées par des experts en intelligence de menace (CTI) en fonction de leur large diffusion sur les marchés du dark net.
Les tests de chaque ensemble de données ont impliqué le développement d’un spider TOR qui collectait 500 images CAPTCHA, qui ont été ensuite étiquetées et curées par des conseillers CTI.
Trois expériences ont été conçues. La première a évalué les performances générales de DW-GAN pour vaincre les CAPTCHAs par rapport aux méthodes SOTA standard. Les méthodes rivales étaient un CNN de niveau d’image avec prétraitement, impliquant une conversion en nuances de gris, une normalisation et un lissage gaussien, un effort académique conjoint de l’Iran et du Royaume-Uni ; un CNN de niveau de caractère avec segmentation basée sur les intervalles ; et un CNN de niveau d’image, de l’Université d’Oxford au Royaume-Uni.

Résultats de DW-GAN pour la première expérience, comparés aux approches SOTA antérieures.
Les chercheurs ont constaté que DW-GAN a amélioré les résultats antérieurs dans l’ensemble (voir tableau ci-dessus).
La deuxième expérience était une étude d’ablation, où divers composants du cadre actif sont supprimés ou désactivés afin de déterminer si des facteurs externes ou secondaires influencent les résultats.

Résultats de l’étude d’ablation.
Ici aussi, les auteurs ont constaté que la désactivation de sections clés de l’architecture réduisait les performances de DW-GAN dans presque tous les cas (voir tableau ci-dessus).
La troisième expérience hors ligne a comparé l’efficacité de DW-GAN contre une méthode d’image de référence et deux méthodes de niveau de caractère, afin de déterminer dans quelle mesure l’évaluation des caractères de DW-GAN influençait son utilité dans les cas où un mot CAPTCHA sans sens était d’une longueur arbitraire (plutôt que prédéfinie). Dans ces cas, la longueur du CAPTCHA variait entre 4 et 7 caractères.
Pour cette expérience, les auteurs ont utilisé un ensemble d’entraînement de 50 000 images CAPTCHA, avec 5 000 réservés pour les tests dans un split typique de 90/10.
Ici aussi, DW-GAN a surpassé les approches antérieures :

Test en direct sur un marché du dark net
Enfin, DW-GAN a été déployé contre le marché du dark net Yellow Brick (alors en ligne). Pour ce test, un navigateur web TOR a été développé qui intégrait DW-GAN dans ses capacités de navigation, analysant automatiquement les défis CAPTCHA.
Dans ce scénario, un CAPTCHA était présenté au crawl automatique pour chaque 15 requêtes HTTP, en moyenne. Le crawl a pu indexer 1 831 articles illégaux à vendre sur Yellow Brick, dont 1 223 produits liés à la drogue (y compris des opioïdes et de la cocaïne), 44 packages de piratage et neuf scans de documents falsifiés. Au total, le système a pu identifier 286 articles liés à la cybersécurité, dont 102 cartes de crédit volées et 131 connexions de comptes volés. En moyenne, 76 minutes de temps de traitement ont été nécessaires pour tenir compte des CAPTCHAs qui protégeaient tous les 1 831 produits. Aucun humain n’a eu besoin d’intervenir, et aucun cas de défaillance de point de terminaison n’est survenu.
Les auteurs notent l’émergence de défis qui offrent un niveau de sophistication supérieur aux CAPTCHAs de texte, y compris certains qui semblent modélisés sur les tests de Turing, et observent que DW-GAN pourrait être amélioré pour répondre à ces nouvelles tendances à mesure qu’elles deviennent populaires.
Publié pour la première fois le 11 janvier 2022.













