사이버 보안

기계 학습을 통한 새로운 스팸 도메인 예측

게재

2 년 전

2022 년 5 월 5 일

마틴 앤더슨

프랑스의 연구원들은 대용량 이메일 스패머가 '뺑소니' 방식으로 사용할 가능성이 있는 새로 등록된 도메인을 식별하는 방법을 고안했습니다.

이 기법은 발신자 정책 프레임워크(SPF)를 신규 등록 도메인에 설정하였습니다.

사용 덕분에 패시브 DNS(도메인 이름 시스템) 센서를 통해 연구원들은 시애틀에 기반을 둔 회사인 Farsight로부터 거의 실시간에 가까운 DNS 데이터를 얻을 수 있었으며, TXT 레코드 다양한 도메인에 대해.

원래 클래스 가중치 알고리즘 사용 설계 불균형한 의료 데이터 처리를 위해 사이 킷 학습 기계 학습 Python 라이브러리를 사용하여 연구원들은 대기 중인 스팸 도메인의 4분의 3을 순간적으로, 심지어 작업 전에도 탐지할 수 있었습니다.

논문은 다음과 같이 말합니다.

'TXT 레코드에 대한 단일 요청으로 스팸 캠페인이 시작되기 전에 스팸 도메인의 75%를 탐지합니다. 따라서 우리의 체계는 중요한 반응 속도를 제공합니다. 메일이 전송되기 전과 DNS 트래픽이 급증하기 전에도 우수한 성능으로 스패머를 탐지할 수 있습니다.'

연구원들은 시스템이 이미 사용 중인 거의 실시간 DNS 피드에서 수동적으로 추론된 SPF 데이터에 의존하기 때문에 상당한 계산 오버헤드를 추가하지 않고도 성능을 향상시키기 위해 그들의 기술에 사용된 기능을 기존 스팸 탐지 시스템에 추가할 수 있다고 주장합니다. 문제에 대한 다양한 접근 방식.

XNUMXD덴탈의 종이 제목이 패시브 DNS와 SP로 스팸 도메인 조기 탐지F, 그르노블 대학의 세 명의 연구원이 제공합니다.

SPF 활동

SPF는 등록되고 승인된 IP 주소가 이메일을 보내는 데 사용되었는지 확인하여 이메일 주소 스푸핑을 방지하도록 설계되었습니다.

SPF의 이 예에서 'Alice'는 'Bob'에게 무해한 이메일을 보내고 공격자 'Mallory'는 Alice를 가장하려고 시도합니다. 둘 다 자신의 도메인에서 메일을 보내고 있지만 Alice의 서버만 Alice의 메일을 보내도록 등록되어 있으므로 Mallory의 가짜 메일이 SPF 확인에 실패하면 Malory의 스푸핑이 차단됩니다. 출처 : https://arxiv.org/pdf/2205.01932.pdf

다른 이메일 확인 방법에는 DomainKeys Identified Mail(디킴) 서명, 도메인 기반 메시지 인증, 보고 및 적합성(DMARC).

세 가지 방법 모두 인증된 발신 도메인에 대한 도메인 등록 기관에서 TXT 레코드(구성 설정)로 등록되어야 합니다.

스팸 및 굽기

스패머는 이와 관련하여 '서명 행동'을 보입니다. 그들의 의도(또는 적어도 그들의 활동의 부수적 효과)는 이러한 서비스를 판매하는 네트워크 공급자가 조치를 취할 때까지 대량 메일을 날려 도메인과 해당 IP 주소의 평판을 '소모'하는 것입니다. 또는 관련 IP 주소가 널리 사용되는 스팸 필터 목록에 등록되어 현재 발신자에게는 쓸모가 없게 됩니다(그리고 미래의 IP 주소 소유자에게는 문제가 됨).

좁은 기회 창: SpamHaus 및 기타 다양한 모니터링 서비스에 의해 새로운 스팸 도메인이 금지되고 쓸모 없게 되기까지 몇 시간 단위의 시간입니다.

도메인 위치를 더 이상 사용할 수 없으면 스패머는 필요에 따라 다른 도메인 및 서비스로 이동하여 새 IP 주소 및 구성으로 절차를 반복합니다.

데이터 및 방법

연구를 위해 연구된 도메인은 Farsight에서 제공한 2021년 XNUMX월에서 XNUMX월 사이의 기간을 다룹니다. 새로 등록된 도메인만 고려되었습니다. modus operandi 지속적인 스패머의.

도메인 목록은 ICANN 중앙 영역 데이터 서비스(CZDS)의 데이터를 기반으로 작성되었습니다. 블랙리스트 정보 서블 및 스팸하우스 프로젝트는 잠재적으로 문제가 있는 새 도메인 등록을 거의 실시간으로 식별하는 데 사용되었습니다. 작성자는 스팸 목록의 불완전한 특성으로 인해 무해한 도메인이 실수로 대량 메일의 잠재적 소스로 분류될 수 있음을 인정합니다.

수동 DNS 피드에서 발견된 새로 등록된 도메인에 대한 DNS TXT 쿼리를 캡처한 후 유효한 SPF 데이터가 있는 쿼리만 유지되어 알고리즘에 대한 실측 정보를 제공했습니다.

SPF에는 여러 가지 유용한 기능이 있습니다. 새 논문은 '양호한' 도메인 소유자가 가장 일반적으로 +포함 메커니즘, 스패머는 (현재 사용되지 않음) +ptr 기능.

스패머의 SPF 규칙 사용, 표준 사용과 비교.

+ptr 조회는 보내는 메일의 IP 주소를 해당 IP와 호스트 이름(예: GoDaddy) 간의 연결에 대해 존재하는 모든 레코드와 비교합니다. 호스트 이름이 발견되면 해당 도메인은 SPF 레코드를 참조하는 데 처음 사용된 도메인과 비교됩니다.

실제로 대규모 +ptr 조회를 수행하는 데 필요한 리소스로 인해 많은 공급자가 검사를 완전히 건너뛰게 되는 경우 스패머는 +ptr의 명백한 엄격함을 악용하여 보다 신뢰할 수 있는 빛으로 자신을 나타낼 수 있습니다.

요컨대 스패머들이 '폭파 후 소각' 작업이 시작되기 전에 기회의 창을 확보하기 위해 SPF를 사용하는 방식은 기계 분석으로 유추할 수 있는 특징적인 서명을 나타냅니다.

스팸 도메인에 대한 특징적인 SPF 관계.

스패머는 종종 매우 가까운 IP 범위 및 리소스로 이동하기 때문에 연구원은 IP 범위와 도메인 간의 상관 관계를 탐색하기 위해 관계 그래프를 개발했습니다. 그래프는 SpamHaus 및 기타 소스의 새로운 데이터에 대한 응답으로 거의 실시간으로 업데이트될 수 있으므로 시간이 지남에 따라 더욱 유용하고 완전해집니다.

연구자들은 다음과 같이 말합니다.

'이러한 구조에 대한 연구는 잠재적인 스팸 도메인을 강조할 수 있습니다. 데이터 세트에서 수십 개의 도메인이 동일한 [SPF] 규칙을 사용하고 대부분이 스팸 블랙리스트에 나타나는 [구조]를 발견했습니다. 따라서 나머지 도메인은 아직 탐지되지 않았거나 아직 활성화된 스팸 도메인이 아닐 가능성이 높다고 가정하는 것이 타당합니다.'

결과

연구원들은 SpamHaus와 SURBL에 대한 접근 방식의 스팸 도메인 탐지 대기 시간을 50시간 동안 비교했습니다. 그들은 식별된 스팸 도메인의 70%에 대해 자체 시스템이 더 빠르다고 보고하지만 식별된 스팸 도메인의 26%가 다음 시간에 상업용 블랙리스트에 나타났음을 인정합니다. 도메인의 30%는 패시브 DNS 피드에 나타났을 때 이미 블랙리스트에 있었습니다.

저자는 단일 DNS 쿼리를 기반으로 지상 실측에 대해 1%의 F79 점수를 주장하며 다음과 같은 경쟁 방법을 사용합니다. 노출 시간 일주일 간의 예비 분석이 필요할 수 있습니다.

그들은 관찰합니다:

'우리의 체계는 도메인 수명 주기의 초기 단계에 적용될 수 있습니다. 수동(또는 능동) DNS를 사용하여 새로 등록된 도메인에 대한 SPF 규칙을 얻고 즉시 분류하거나 해당 도메인에 대한 TXT 쿼리를 감지할 때까지 기다렸다가 회피하기 어려운 시간적 특징을 이용한 분류.'

그리고 계속:

'[당사의] 최고의 분류기는 스팸 도메인의 85%를 감지하고 거짓 긍정률을 1% 미만으로 유지합니다. 분류가 도메인 SPF 규칙과 그 관계의 내용만 사용하고 DNS 트래픽을 기반으로 회피하기 어려운 기능을 사용한다는 점에서 탐지 결과가 놀랍습니다.

'분류기의 성능은 단일 TXT 쿼리(수동적으로 관찰되거나 능동적으로 쿼리됨)에서 수집할 수 있는 정적 기능만 제공되더라도 높은 상태를 유지합니다.'

새로운 방법에 대한 프레젠테이션을 보려면 아래에 포함된 비디오를 확인하십시오.

백서: 패시브 DNS 및 SPF로 스팸 도메인 조기 탐지

Paper: Early Detection of Spam Domains with Passive DNS and SPF

Watch this video on YouTube

5년 2022월 XNUMX일에 처음 게시되었습니다.

Unite.AI

기계 학습을 통한 새로운 스팸 도메인 예측

사이버 보안