부본 머신 러닝으로 CAPTCHA를 해결하여 다크 웹 연구 지원 - Unite.AI
Rescale 미팅 예약

사이버 보안

머신 러닝으로 CAPTCHA를 해결하여 다크 웹 연구 지원

mm

게재

 on

미국의 공동 학술 연구 프로젝트는 CAPTCHA* 테스트를 실패시키는 방법을 개발했으며, Generative Adversarial Networks(Generative Adversarial Networks)를 사용하여 유사한 최첨단 기계 학습 솔루션보다 성능이 뛰어난 것으로 알려졌습니다.) 시각적으로 복잡한 문제를 해독합니다.

최신 프레임워크에 대해 새로운 시스템을 테스트한 연구원들은 그들의 방법이 세심하게 선별된 실제 벤치마크 데이터 세트에서 94.4% 이상의 성공을 달성했으며 CAPTCHA로 보호되는 신흥 Dark Net Marketplace는 최대 XNUMX번의 시도로 CAPTCHA 문제를 자동으로 해결합니다.

DW-GAN을 위한 아키텍처. 출처: https://arxiv.org/pdf/2201.02799.pdf

DW-GAN의 워크플로. 출처 : https://arxiv.org/pdf/2201.02799.pdf

저자는 그들의 접근 방식이 일반적으로 AMT(Amazon Mechanical Turk)와 같은 크라우드소싱 플랫폼을 통해 CAPTCHA를 수동으로 해결하기 위해 전통적으로 휴먼 인 더 루프(Human-in-the-Loop)를 공급하는 비용을 부담해야 했던 사이버 보안 연구원에게 돌파구를 제시한다고 주장합니다.

시스템이 적응 가능하고 탄력적임을 입증할 수 있다면 더 자동화된 감독 시스템과 TOR 네트워크의 인덱싱 및 웹 스크래핑을 위한 길을 더 열 수 있습니다. 이를 통해 CAPTCHA 방화벽에 의해 지금까지 방해받은 새로운 사이버 보안 접근 방식 및 기술의 개발뿐만 아니라 확장 가능한 대량 분석이 가능해질 수 있습니다.

XNUMXD덴탈의 종이 제목이 선제적 사이버 위협 인텔리전스를 위한 생성적 적대적 학습으로 다크 웹 텍스트 기반 CAPTCHA 대응, 애리조나 대학교, 사우스 플로리다 대학교 및 조지아 대학교의 연구원들이 제공합니다.

시사점

Dark Web-GAN(DW-GAN, GitHub에서 사용 가능) – 분명히 이전 버전보다 훨씬 더 수행적이므로 이 특정 구현에서 또는 표준 웹에서 CAPTCHA 자료를 극복하기 위한 일반적인 방법으로 사용될 가능성이 있습니다. 새 논문에서 설명하는 일반 원칙. 그러나 GitHub의 제한된 저장 공간으로 인해 프레임워크와 관련된 데이터를 얻으려면 현재 수석 저자인 Ning Zhang에게 연락해야 합니다.

DW-GAN은 CAPTCHA를 해독하기 위한 '긍정적인' 임무를 가지고 있고(TOR 자체가 원래 군사 통신과 나중에는 언론인을 보호하는 긍정적인 임무를 가졌던 것처럼) CAPTCHA는 둘 다 정당한 방어(자주 그리고 논란의 여지가 있음)이기 때문입니다. 익숙한 유비쿼터스 CDN 거인 CloudFlare) 및 불법 다크 웹 마켓플레이스에서 가장 선호하는 도구인 이 접근 방식은 틀림없이 '평준화' 기술입니다.

저자는 DW-GAN이 더 광범위하게 사용된다는 점을 인정합니다.

'[] 본 연구는 보다 어려운 문제로 다크웹 ​​CAPTCHA에 주로 초점을 맞추었지만, 본 연구에서 제안하는 방법은 일반성을 잃지 않고 다른 유형의 CAPTCHA에도 적용할 수 있을 것으로 기대한다.'

아마도 DW-GAN 또는 이와 유사한 시스템은 다크 웹 시장이 기계로 해결할 수 없는 솔루션을 찾도록 유도하거나 최소한 CAPTCHA 구성을 주기적으로 발전시켜 '냉전' 시나리오로 만들기 위해 널리 확산되어야 할 것입니다.

동기 부여

백서에서 관찰한 바와 같이 다크 웹은 사이버 공격과 관련된 해커 인텔리전스의 기본 글꼴입니다. 예상 10년까지 세계 경제에 2025조 달러의 비용이 들게 됩니다. 따라서 onion 네트워크는 세션 시간 초과, 쿠키 및 사용자 인증을 포함한 다양한 방법으로 경계 사용자를 격퇴할 수 있는 불법 다크넷 커뮤니티에 비교적 안전한 환경으로 남아 있습니다.

두 가지 유형의 CAPTCHA, 둘 다 난독화 배경과 기울어진 글자를 사용하여 기계가 읽을 수 없게 만듭니다.

두 가지 유형의 CAPTCHA, 둘 다 난독화 배경과 기울어진 글자를 사용하여 기계가 읽을 수 없게 만듭니다.

그러나 저자는 이러한 장애물 중 어느 것도 '민감한' 커뮤니티에서 브라우징 경험을 강조하는 CAPTCHA의 트렌치만큼 큰 것은 없다고 관찰합니다.

'이러한 대부분의 조치는 크롤러 프로그램에서 자동화된 대응 조치를 구현하여 효과적으로 우회할 수 있지만 CAPTCHA는 다크 웹에서 가장 방해가 되는 안티 크롤링 조치로 자동화에 없는 경우가 많은 높은 인지 능력으로 인해 쉽게 우회할 수 없습니다. 도구'

텍스트 기반 CAPTCHA만 사용할 수 있는 옵션은 아닙니다. 사용자가 비디오, 오디오, 특히 이미지를 해석해야 하는 많은 사람들에게 친숙한 변형이 있습니다. 그럼에도 불구하고 저자가 관찰한 것처럼 텍스트 기반 CAPTCHA는 현재 선택의 도전 다크 웹 시장을 위한 것이며 TOR 네트워크를 기계 분석에 더 취약하게 만드는 자연스러운 출발점입니다.

아키텍처

중국 노스웨스트 대학의 이전 접근 방식에서는 생성적 적대 신경망(Generative Adversarial Networks)을 사용하여 CAPTCHA 플랫폼에서 기능 패턴을 추출했지만, 새 논문의 저자는 이 방법이 챌린지에서 인식된 문자를 심층적으로 조사하는 것이 아니라 래스터화된 이미지의 해석에 의존한다는 점을 지적했습니다. ; DW-GAN의 효율성은 일반적으로 다크 웹 CAPTCHA에서 발견되는 의미 없는 단어(및 숫자)의 다양한 길이에 의해 영향을 받지 않습니다.

DW-GAN은 XNUMX단계 파이프라인을 사용합니다. 먼저 이미지가 캡처된 다음 주석이 달린 CAPTCHA 샘플에 대해 훈련된 GAN을 사용하는 배경 노이즈 제거 모듈로 공급되므로 교란된 배경에서 문자를 구별할 수 있습니다. 쉬고 있습니다. 그런 다음 추출된 문자는 GAN 기반 추출 후 남아 있는 노이즈에서 추가로 필터링됩니다.

다음으로 추출된 텍스트에 대해 분할이 수행된 다음 윤곽선 감지 알고리즘을 사용하여 구성 문자로 보이는 것으로 분해됩니다.

문자 분할은 픽셀 그룹을 분리하고 경계 추적으로 인식을 시도합니다.

문자 분할은 픽셀 그룹을 분리하고 경계 추적으로 인식을 시도합니다.

마지막으로 '추측된' 문자 세그먼트는 CNN(Convolutional Neural Network)을 통해 문자 인식의 대상이 됩니다.

때때로 문자가 겹칠 수 있으며, 기계 시스템을 속이기 위해 특별히 고안된 하이퍼 커닝입니다. 따라서 DW-GAN은 간격 기반 분할을 사용하여 테두리를 향상 및 분리하여 문자를 효과적으로 분리합니다. 단어는 일반적으로 무의미하므로 이 프로세스에 도움이 되는 의미론적 컨텍스트가 없습니다.

결과

DW-GAN은 세 가지 다양한 다크 웹 데이터 세트의 CAPTCHA 이미지와 널리 사용되는 CAPTCHA 신디사이저에 대해 테스트되었습니다. 이미지가 시작된 암흑 시장은 Rescator-1과 Rescator-2라는 두 개의 카딩 숍과 당시 신흥 시장인 Yellow Brick(예전에는 신고 나중에 DarkMarket의 게시 중단 이후 사라졌습니다).

오픈 소스 CAPTCHA 합성기뿐만 아니라 세 가지 데이터 세트의 샘플 CAPTCHA입니다.

오픈 소스 CAPTCHA 합성기뿐만 아니라 세 가지 데이터 세트의 샘플 CAPTCHA입니다.

저자에 따르면 테스트에 사용된 데이터는 CTI(Cyber ​​Threat Intelligence) 전문가가 다크넷 시장 전반에 광범위하게 확산되어 있는 것을 기반으로 추천한 것입니다.

각 데이터 세트 테스트에는 500개의 CAPTCHA 이미지를 수집하는 임무를 맡은 TOR 지향 스파이더 개발이 포함되었으며, 이후에 CTI 고문이 레이블을 지정하고 큐레이팅했습니다.

세 가지 실험이 고안되었습니다. 첫 번째는 표준 SOTA 방법에 대해 DW-GAN의 일반적인 CAPTCHA 무시 성능을 평가했습니다. 라이벌 방식은 전처리가 있는 이미지 수준 CNN, 그레이스케일 변환, 정규화, 가우시안 평활화, 이란과 영국의 공동 학술적 노력 포함; 문자 수준 CNN 간격 기반 세분화로; 그리고 이미지 수준 CNN, 영국 옥스포드 대학에서.

이전의 최첨단 접근 방식과 비교한 첫 번째 실험에 대한 DW-GAN의 결과.

이전의 최첨단 접근 방식과 비교한 첫 번째 실험에 대한 DW-GAN의 결과.

연구원들은 DW-GAN이 전반적으로 이전 결과를 개선할 수 있음을 발견했습니다(위 표 참조).

두 번째 실험은 외부 또는 이차 요인이 결과에 영향을 미칠 가능성을 줄이기 위해 활성 프레임워크의 다양한 구성 요소를 제거하거나 비활성화하는 절제 연구였습니다.

절제 연구 결과.

절제 연구 결과.

여기에서도 작성자는 아키텍처의 핵심 섹션을 비활성화하면 거의 모든 경우에 DW-GAN의 성능이 감소한다는 사실을 발견했습니다(위 표 참조).

세 번째 오프라인 실험에서는 DW-GAN의 문자 평가가 의미 없는 CAPTCHA 단어가 임의인 경우 유용성에 영향을 미치는 정도를 결정하기 위해 벤치마크 이미지 기반 방법 및 두 가지 문자 수준 방법과 DW-GAN의 효능을 비교했습니다. (미리 정의된 것이 아니라) 길이. 이 경우 CAPTCHA 길이는 4~7자 사이였습니다.

이 실험을 위해 저자는 50,000개의 CAPTCHA 이미지로 구성된 교육 세트를 사용했으며 5,000개는 일반적인 90/10 분할에서 테스트용으로 예약되었습니다.

여기서도 DW-GAN은 이전 접근 방식을 능가했습니다.

다크넷 시장에서 라이브 테스트

마지막으로 DW-GAN은 (당시 라이브) Yellow Brick 다크넷 시장에 대해 배포되었습니다. 이 테스트를 위해 DW-GAN을 브라우징 기능에 통합하여 CAPTCHA 챌린지를 자동으로 구문 분석하는 Tor 웹 브라우저가 개발되었습니다.

이 시나리오에서는 평균적으로 15개의 HTTP 요청마다 CAPTCHA가 자동 크롤러에 제공되었습니다. 크롤러는 마약 관련 제품(오피오이드 및 코카인 포함) 1,831개, 해킹 패키지 1,223개, 위조된 문서 스캔 44개를 포함하여 옐로브릭에서 판매되는 286개의 불법 품목을 인덱싱할 수 있었습니다. 이 시스템은 총 102개의 사이버 보안 관련 항목을 식별할 수 있었으며 여기에는 도난당한 신용 카드 131개와 계정 로그인 도용 XNUMX개가 포함됩니다.

저자는 DW-GAN이 모든 경우에 세 번 이하의 시도로 CAPTCHA를 크래킹할 수 있었고 76개의 모든 제품을 보호하는 CAPTCHA를 설명하는 데 1,831분의 처리 시간이 필요했다고 말합니다. 사람이 개입할 필요가 없었고 엔드포인트 실패 사례도 발생하지 않았습니다.

저자는 Turing 테스트를 모델로 한 것으로 보이는 일부를 포함하여 텍스트 CAPTCHA보다 더 높은 수준의 정교함을 제공하는 도전의 출현에 주목하고 DW-GAN이 인기를 얻으면서 이러한 새로운 트렌드를 수용하도록 향상될 수 있음을 관찰합니다.

 

*완전히 자동화 된 공공 튜링 테스트는 별도로 컴퓨터와 인간에게

11년 2022월 XNUMX일에 처음 게시되었습니다.