Информационная безопасность

Решение CAPTCHA с помощью машинного обучения для проведения исследований в даркнете

опубликованный

2 лет назад

11 января 2022

Совместный академический исследовательский проект из США разработал метод предотвращения тестов CAPTCHA*, который, как сообщается, превосходит аналогичные современные решения машинного обучения за счет использования генеративно-состязательных сетей (Generative Adversarial Networks).Gans) для декодирования визуально сложных задач.

Тестируя новую систему на лучших современных платформах, исследователи обнаружили, что их метод достигает успеха более чем в 94.4% на тщательно подобранном наборе данных из реального мира и доказал свою способность «устранить участие человека» при навигации по развивающейся системе с высокой степенью защиты CAPTCHA. Торговая площадка Dark Net, автоматически решающая задачи CAPTCHA максимум за три попытки.

Архитектура для DW-GAN. Источник: https://arxiv.org/pdf/2201.02799.pdf

Рабочий процесс для DW-GAN. Источник: https://arxiv.org/pdf/2201.02799.pdf

Авторы утверждают, что их подход представляет собой прорыв для исследователей кибербезопасности, которым традиционно приходилось нести расходы на предоставление людей в цикле для ручного решения CAPTCHA, обычно через краудсорсинговые платформы, такие как Amazon Mechanical Turk (AMT).

Если система окажется адаптируемой и отказоустойчивой, она может проложить путь для более автоматизированных систем надзора, а также для индексации и веб-скрейпинга сетей TOR. Это может обеспечить масштабируемый и объемный анализ, а также разработку новых подходов и методов кибербезопасности, которые до сих пор были ограничены брандмауэрами CAPTCHA.

Идея статье называется Противодействие текстовой CAPTCHA Dark Web с помощью генеративного состязательного обучения для проактивной разведки киберугроз, и исходит от исследователей из Университета Аризоны, Университета Южной Флориды и Университета Джорджии.

Значение

Так как система — называется Dark Web-GAN (DW-GAN, доступно на GitHub) — по-видимому, настолько более эффективен, чем его предшественники, что есть вероятность, что он будет использоваться в качестве общего метода для преодоления (обычно менее сложного) материала CAPTCHA в стандартной сети, либо в этой конкретной реализации, либо на основе общие принципы, изложенные в новом документе. Однако из-за ограниченного хранилища на GitHub в настоящее время необходимо связаться с ведущим автором Нин Чжан, чтобы получить данные, связанные с фреймворком.

Поскольку у DW-GAN есть «положительная» миссия по взлому CAPTCHA (во многом так же, как у самого TOR изначально была положительная миссия для защиты военной связи, а затем и журналистов), и потому что CAPTCHA является законной защитой (часто и противоречиво). используемый от вездесущего гиганта CDN CloudFlare) и любимый инструмент нелегитимных торговых площадок даркнета, этот подход, возможно, является технологией «выравнивания».

Сами авторы признают, что DW-GAN имеет более широкое применение:

«[Хотя] это исследование в основном сосредоточено на CAPTCHA в темной сети как на более сложной проблеме, ожидается, что предложенный в этом исследовании метод будет применим к другим типам CAPTCHA без потери общности».

Предположительно, DW-GAN или аналогичная система должна будет получить широкое и явное распространение, чтобы побудить рынки даркнета искать менее машинно-разрешимые решения или, по крайней мере, периодически развивать свои конфигурации CAPTCHA, сценарий «холодной войны».

Мотивации

Как отмечается в документе, темная сеть является основным источником хакерской разведки, касающейся кибератак, которые к XNUMX году к 10 году обойдется мировой экономике в 2025 триллионов долларов США. Таким образом, луковые сети остаются относительно безопасной средой для незаконных даркнет-сообществ, которые могут отталкивать посетителей различными методами, включая тайм-ауты сеансов, файлы cookie и аутентификацию пользователей.

Два типа CAPTCHA, оба используют затемняющий фон и наклонные буквы, чтобы сделать их менее машиночитаемыми.

Тем не менее, авторы отмечают, что ни одно из этих препятствий не является таким серьезным, как часть CAPTCHA, которые акцентируют внимание на просмотре в «деликатном» сообществе:

«Хотя большинство из этих мер можно эффективно обойти, внедрив автоматизированные меры противодействия в программу-краулер, CAPTCHA является самой сложной мерой против сканирования в даркнете, которую нелегко обойти из-за высоких когнитивных способностей, которыми часто не обладает автоматизация. инструменты'

Текстовые CAPTCHA — не единственный доступный вариант; есть варианты, знакомые многим из нас, которые заставляют пользователя интерпретировать видео, аудио и особенно изображения. Тем не менее, как отмечают авторы, текстовая CAPTCHA в настоящее время проблема выбора для темных веб-рынков и естественной отправной точкой для того, чтобы сделать сети TOR более восприимчивыми к машинному анализу.

Архитектура

Хотя предыдущий подход Северо-Западного университета в Китае использовал генеративно-состязательные сети для получения шаблонов функций из платформ CAPTCHA, авторы новой статьи отмечают, что этот метод основан на интерпретации растрового изображения, а не на более глубоком изучении букв, распознанных в задаче. ; и что на эффективность DW-GAN не влияет переменная длина бессмысленных слов (и цифр), которые обычно встречаются в CAPTCHA даркнета.

DW-GAN использует четырехэтапный конвейер: сначала изображение захватывается, а затем передается в модуль шумоподавления фона, который использует GAN, обученный на аннотированных образцах CAPTCHA, и, следовательно, способен отличать буквы от возмущенного фона, который они создают. отдыхают на. Извлеченные буквы затем дополнительно отфильтровываются от любого оставшегося шума после извлечения на основе GAN.

Затем выполняется сегментация извлеченного текста, который затем разбивается на составляющие символы с использованием алгоритмов обнаружения контуров.

Сегментация символов изолирует группу пикселей и пытается выполнить распознавание с отслеживанием границ.

Наконец, «угаданные» сегменты символов подлежат распознаванию с помощью сверточной нейронной сети (CNN).

Иногда символы могут перекрываться — гиперкернинг, специально разработанный для того, чтобы обмануть компьютерные системы. Поэтому DW-GAN использует сегментацию на основе интервалов для улучшения и выделения границ, эффективного разделения символов. Поскольку слова обычно бессмысленны, в этом процессе нет семантического контекста.

Итоги

DW-GAN был протестирован на изображениях CAPTCHA из трех различных наборов данных даркнета, а также на популярном синтезаторе CAPTCHA. Темные рынки, с которых были взяты изображения, включали в себя два кардочесальных магазина, Рескатор-1 и Рескатор-2, а также новый набор с тогда еще зарождавшегося рынка под названием «Желтый кирпич» (который был переправу который позже исчез после закрытия DarkMarket).

Образцы CAPTCHA из трех наборов данных, а также синтезатор CAPTCHA с открытым исходным кодом.

По словам авторов, данные, использованные при тестировании, были рекомендованы экспертами Cyber Threat Intelligence (CTI) на основании их широкого распространения на рынках даркнета.

Тестирование каждого набора данных включало разработку паука, обращенного к TOR, которому было поручено собрать 500 изображений CAPTCHA, которые впоследствии были помечены и проверены консультантами CTI.

Было разработано три эксперимента. Первый оценивал общую производительность DW-GAN по преодолению CAPTCHA по сравнению со стандартными методами SOTA. Соперничающие методы были CNN уровня изображения с предварительной обработкой, включая преобразование оттенков серого, нормализацию и сглаживание по Гауссу, совместные академические усилия Ирана и Великобритании; CNN на уровне персонажей с сегментацией на основе интервалов; и CNN уровня изображения, из Оксфордского университета в Великобритании.

Результаты DW-GAN для первого эксперимента по сравнению с предыдущими современными подходами.

Исследователи обнаружили, что DW-GAN удалось улучшить предыдущие результаты по всем направлениям (см. таблицу выше).

Второй эксперимент представлял собой абляционное исследование, в котором различные компоненты активного каркаса удаляются или отключаются, чтобы исключить возможность влияния внешних или вторичных факторов на результаты.

Результаты исследования абляции.

Здесь авторы также обнаружили, что отключение ключевых разделов архитектуры снижало производительность DW-GAN почти во всех случаях (см. таблицу выше).

Третий автономный эксперимент сравнил эффективность DW-GAN с эталонным методом на основе изображений и двумя методами на уровне символов, чтобы определить, в какой степени оценка символов DW-GAN повлияла на его полезность в случаях, когда бессмысленное слово CAPTCHA было произвольным. (вместо предопределенной) длины. В этих случаях длина CAPTCHA варьировалась от 4 до 7 символов.

Для этого эксперимента авторы использовали обучающий набор из 50,000 5,000 изображений CAPTCHA, из которых 90 10 зарезервированы для тестирования в типичном разделении XNUMX/XNUMX.

Здесь DW-GAN также превзошел предыдущие подходы:

Живой тест на рынке даркнета

Наконец, DW-GAN был развернут против (тогда еще живого) рынка даркнета Yellow Brick. Для этого теста был разработан веб-браузер Tor, который интегрировал DW-GAN в свои возможности просмотра, автоматически анализируя вызовы CAPTCHA.

В этом сценарии CAPTCHA предоставлялась автоматизированному поисковому роботу в среднем на каждые 15 HTTP-запросов. Поисковый робот смог проиндексировать 1,831 незаконный предмет для продажи в Yellow Brick, в том числе 1,223 продукта, связанных с наркотиками (включая опиоиды и кокаин), 44 хакерских пакета и девять отсканированных поддельных документов. В общей сложности система смогла выявить 286 предметов, связанных с кибербезопасностью, в том числе 102 украденных кредитных карты и 131 украденный логин учетной записи.

Авторы заявляют, что DW-GAN во всех случаях мог взломать CAPTCHA с трех или менее попыток, и что для учета CAPTCHA, защищающих все 76 продукт, потребовалось 1,831 минут времени обработки. Вмешательство человека не требовалось, и случаев отказа конечной точки не было.

Авторы отмечают появление проблем, которые предлагают более высокий уровень сложности, чем текстовые CAPTCHA, в том числе те, которые, похоже, созданы по образцу тестов Тьюринга, и отмечают, что DW-GAN может быть улучшен, чтобы соответствовать этим новым тенденциям по мере их популярности.

*Полностью испытание Automated Public Turing сказать компьютеров и людей

Впервые опубликовано 11 января 2022 г.

Использование ИИ для оптимизации сетей и защиты данных — лидеры мнений

Не пропустите

Защита инфраструктуры от программ-вымогателей — лидеры мнений

Мартин Андерсон

Автор статей о машинном обучении, искусственном интеллекте и больших данных.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai

Unite.ИИ

Решение CAPTCHA с помощью машинного обучения для проведения исследований в даркнете

Информационная безопасность