사이버 보안

로컬 브라우저 동작을 기반으로 광고를 차단하는 기계 학습 방법

게재

3 년 전

2021 년 7 월 26 일

스위스와 미국의 연구자들은 콘텐츠나 네트워크 동작을 분석하는 대신 해당 자료가 브라우저와 상호 작용하는 방식을 기반으로 웹사이트 광고 자료를 탐지하는 새로운 기계 학습 접근 방식을 고안했습니다. CNAME 클로킹에 직면하여 장기적으로(아래 참조)

더빙 된 웹그래프, 프레임워크는 그래프네트워크 광고의 필수 활동(원격 측정 시도 및 로컬 브라우저 저장 포함)에 집중하여 판촉 콘텐츠를 탐지하는 기반 AI 광고 차단 접근 방식으로, 유일하게 효과적인 회피 기술은 이러한 활동을 수행하지 않는 것입니다.

이전 접근 방식은 WebGraph보다 약간 높은 탐지율을 달성했지만 모두 회피 기술에 취약한 반면 WebGraph는 적대적 대응에 직면하여 100% 무결성에 접근할 수 있습니다. 새로운 광고 차단 방법.

이 논문은 스위스 연방 공과대학(Swiss Federal Institute of Technology)의 두 연구원이 캘리포니아 대학교 데이비스 캠퍼스(University of California, Davis)와 아이오와 대학교(University of Iowa)의 연구원들과 공동으로 주도했습니다.

광고 그래프를 넘어

이 작업은 Brave 브라우저를 사용한 2020년 연구 이니셔티브에서 개발한 것입니다. 애드그래프, 새 논문의 두 연구원이 등장했습니다.

AdGraph와 WebGraph의 비교. 점선은 이전 접근 방식의 아키텍처 혁신을 나타냅니다. 출처 : https://arxiv.org/pdf/2107.11309.pdf

AdGraph는 (광고) 콘텐츠에 의존합니다. 풍모, URL 분석을 통해 도출된, 광고성 소재 탐지의 핵심입니다. 그러나 이러한 기능은 광고 감지 시스템의 존재를 감지하고 이를 방지하기 위한 방법을 공식화하려는 공격자에게 단일 잠재적 실패 지점을 나타냅니다. 콘텐츠에 대한 이러한 의존 속성 AdGraph는 본질적으로 수동으로 선별된 필터 목록 기반 접근 방식의 기계화된 버전이며 약점을 공유합니다.

CNAME 클로킹

웹사이트 자체 도메인에서 가져온 자료는 도메인 자체를 신뢰할 수 있는 한 '신뢰할 수 있는' 범주에 속합니다. 권위가 높은 웹사이트의 경우, 등장하다 이러한 광고는 필터 기반 광고 차단 목록 및 2020 AdGraph 접근 방식에도 영향을 받지 않기 때문에 권한 사이트 자체에서 호스팅합니다.

그러나 맞춤형 캠페인은 협상하기 어렵고 구현 비용이 많이 들며 지난 25년 동안 개발된 네트워크 광고 모델의 핵심 원칙에 반하여 실행됩니다. 여기서 제XNUMX자 플랫폼은 일반적으로 '경매' 방식으로 호스트 사이트에 직접 코드를 삽입합니다. 키워드 선호도 및 기타 다양한 요인을 기반으로 마이크로초 단위의 광고 슬롯.

거의 모든 광고 차단 시스템이 웹 페이지의 제XNUMX자 자료(예: '외계인' 도메인에서 호스팅되는 요소)에 핵심을 두기 때문에 광고주는 CNAME 클로킹 기술 지난 XNUMX년 동안. CNAME 클로킹은 트래커가 호스트 사이트의 하위 도메인(예: example.com 대신 information.example.com)이 실제로는 타사 광고와 함께 배열된 프록시 광고 제공 메커니즘인 경우 사이트에 대한 진정한 부속 도메인이라고 믿도록 속입니다. 공급자.

2021년 XNUMX월 한 연구 공개 CNAME 클로킹 사건은 22년에서 2018년 사이에 2020% 증가했으며 10년 10,000월까지 Tranco의 상위 2020개 웹사이트 중 거의 XNUMX%가 최소 하나의 CNAME 기반 추적기를 사용했습니다.

URL의 신뢰 할인

CNAME 속임수 기술에는 광고 게재 프로세스와 관련된 URL 조작이 포함됩니다. URL 체인을 신뢰하는 모든 광고 차단 시스템은 조작 및 회피의 대상이 됩니다. 따라서 WebGraph는 프로세스에서 제공된 URL(쿼리 문자열, 매개변수 수 및 매개변수 이름 포함)을 임의로 변경하여 특정 금지 또는 허용 URL이 아닌 사용 패턴을 찾습니다.

시스템은 광고 제공 아키텍처에서 두 가지 일반적인 구성을 고려해야 합니다. 하나는 호스트가 광고주와 직접 결탁하는 경우입니다. 두 번째(더 일반적인) 시나리오는 광고주가 클라이언트의 조작으로부터 자신을 보호해야 하기 때문에 제한된 협력을 제공하는 것입니다.

AdGraph를 포함한 목록 기반 접근 방식에서 광고 제공 시스템에 의한 성공적인 URL 조작은 광고의 '로컬' 출처를 밝히고 따라서 광고 콘텐츠를 체계적으로 차단하려는 거의 모든 시도를 회피하는 거의 완전한 승리입니다.

서명을 통해 남은 것은 무엇입니까? 대신 WebGraph는 웹 추적기, iframe과 웹 '리스너' 간의 통신과 같은 다양한 반 난독화 수단을 통해 정보를 공유해야 하는 광고 시스템의 필요성에 초점을 맞춥니다. 광고에 대한 웹 메트릭의 이러한 활동에는 쿠키 또는 HTML5 기반 로컬 저장소에 변수를 저장하는 것이 포함됩니다.

WebGraph는 Mozilla의 웹 프라이버시 측정(오픈WPM 프레임워크)를 사용하여 Firefox에서 이러한 활동을 추적합니다. JavaScript 계층의 모든 활동과 네트워크 계층의 모든 발신 네트워크 요청 및 해당 응답을 캡처합니다.

이 추가 조사는 이전에 AdGraph에서 제안한 그래프 네트워크에 새로운 '정보 흐름' 에지를 도입하여 WebGraph가 로컬 활동을 기반으로 정보 공유 패턴을 명시적으로 기록하고 정량화할 수 있도록 합니다. 광고 제공 시스템.

결과

연구원들은 OpenWPM의 확장 버전을 사용하여 Alexa 상위 10,000개 사이트에서 가져온 100,000개의 웹사이트와 9,000~1개 사이의 무작위 샘플 100개 사이트를 체계적으로 크롤링하고 결과를 AdGraph의 결정 트리 분류기에 전달하기 전에 그래프 표현을 저장했습니다. 독창적인 디자인과 인기 있는 광고 필터 목록을 근거 자료로 사용합니다. 이러한 방식으로 핵심 모델 학습을 위한 데이터 세트가 구성되었습니다.

이 시스템은 92.33%의 정확도로 AdGraph와 유사한 결과를 달성했습니다. 그러나 적대적 저항에 대한 새로운 시스템의 탄력성은 AdGraph의 거의 완전한 실패율에서 WebGraph의 8% 민감성으로 증가합니다.

향후 방향

이 논문은 광고 네트워크가 WebGraph 접근 방식에서 감지를 피하기 위해 시스템을 특히 재설계해야 한다고 주장하고 그러한 변경으로 인해 현재 제XNUMX자 광고주와 광고가 게재되는 호스트 사이트.

또한 이 백서는 WebGraph가 시스템이 현재 모니터링하지 않는 API를 사용하는 브라우저 지문(Canvas 요소를 통해)과 같은 상태 비저장 추적 기술을 고려하지 않는다고 지적합니다. 연구원들은 WebGraph가 이러한 종류의 상호 작용 및 로컬 스토리지 기표를 설명하기 위해 미래에 확장될 수 있다고 제안합니다.

Unite.AI

로컬 브라우저 동작을 기반으로 광고를 차단하는 기계 학습 방법

사이버 보안