사이버 보안
로컬 브라우저 행동 기반 광고 차단 머신 러닝 방법

스위스와 미국의 연구진이 광고 콘텐츠를 분석하거나 네트워크 행동을 분석하는 두 가지 방식(이 두 방식은 CNAME 클로킹(아래 참조)에 직면해 장기적으로 효과가 없는 것으로 입증됨) 대신, 광고 콘텐츠가 브라우저와 상호작용하는 방식을 기반으로 웹사이트 광고 자료를 탐지하는 새로운 머신 러닝 접근법을 고안했습니다. WebGraph라고 명명된 이 프레임워크는 그래프 기반 AI 광고 차단 접근법을 사용하여, 네트워크 광고의 필수 활동(원격 측정 시도 및 로컬 브라우저 저장소 포함)에 집중함으로써 홍보 콘텐츠를 탐지합니다. 이러한 활동을 수행하지 않는 것이 유일한 효과적인 회피 기술이 될 정도입니다. 이전 접근법들이 WebGraph보다 약간 더 높은 탐지율을 달성했지만, 그 모든 방법들은 회피 기술에 취약한 반면, WebGraph는 적대적 응답(이 새로운 광고 차단 방법에 직면해 등장할 수 있는 더 정교한 가상의 응답 포함)에 직면해서도 거의 100%에 가까운 무결성에 접근할 수 있습니다. 이 논문은 스위스 연방 공과대학교의 두 연구원이 주도했으며, 캘리포니아 대학교 데이비스 캠퍼스와 아이오와 대학교의 연구진과 협력하여 작성되었습니다.
AdGraph를 넘어서
이 작업은 Brave 브라우저와 함께한 2020년 연구 계획인 AdGraph에서 발전한 것으로, 새 논문의 연구자 중 두 명이 참여했습니다.
AdGraph는 상업적 자료 탐지의 핵심으로 URL 분석에서 파생된 (광고) 콘텐츠 특징에 의존합니다. 그러나 이러한 특징들은 광고 탐지 시스템의 존재를 감지하고 이를 무효화하는 방법을 공식화하려는 적대자들에게 단일 잠재적 실패 지점을 나타냅니다. 콘텐츠 속성에 대한 이러한 의존성은 AdGraph를 본질적으로 수동으로 관리되는 필터 목록 기반 접근법의 기계화된 버전으로 만들며, 그들의 약점을 공유합니다.
CNAME 클로킹
웹사이트 자체 도메인에서 비롯된 자료는 도메인 자체가 신뢰받는 한 ‘신뢰된’ 범주에 속합니다. 높은 권위의 웹사이트의 경우, 권위 있는 사이트 자체에서 호스팅되는 것처럼 보이는 자료를 특징으로 하는 광고 캠페인을 운영하는 데는 귀중한 프리미엄이 있습니다. 왜냐하면 이러한 광고는 필터 기반 광고 차단 목록은 물론 2020년 AdGraph 접근법에도 면역이 되기 때문입니다. 그러나 맞춤형 캠페인은 협상하기 어렵고, 구현 비용이 많이 들며, 지난 25년간 발전해 온 네트워크 광고 모델의 핵심 원칙에 반합니다. 해당 모델에서는 제3자 플랫폼이 호스트 사이트에 직접 코드를 삽입하며, 일반적으로 키워드 선호도와 다양한 다른 요소를 기반으로 마이크로초 단위로 광고 슬롯을 ‘경매’에 붙입니다. 거의 모든 광고 차단 시스템이 웹 페이지의 제3자 자료(즉, ‘외부’ 도메인에서 호스팅되는 요소)를 주요 대상으로 삼기 때문에, 광고주들은 지난 5년간 CNAME 클로킹 기술로 맞서 싸워 왔습니다. CNAME 클로킹은 트래커를 속여 호스트 사이트의 하위 도메인(즉, example.com 대신 information.example.com)이 사이트의 진정한 부속물이라고 믿게 만듭니다. 실제로는 제3자 광고 공급자와 협의된 프록시 광고 제공 메커니즘입니다. 2021년 3월 한 연구에 따르면 CNAME 클로킹 사건이 2018년부터 2020년 사이에 22% 증가했으며, 2020년 10월까지 Tranco 상위 10,000개 웹사이트 중 거의 10%가 최소 하나의 CNAME 기반 트래커를 사용하고 있었습니다.
URL에 대한 신뢰 배제
CNAME 기만 기술은 광고 제공 과정에 관련된 URL을 조작하는 것을 포함합니다. URL 체인을 신뢰하는 모든 광고 차단 시스템은 조작과 회피의 대상이 될 것입니다. 따라서 WebGraph는 제공된 URL을 (쿼리 문자열, 매개변수 수 및 매개변수 이름을 포함한) 과정에서 무작위로 변경하여, 특정 금지되거나 허용된 URL보다는 사용 패턴을 찾습니다. 이 시스템은 광고 제공 아키텍처에서 두 가지 일반적인 구성을 고려해야 합니다. 하나는 호스트가 광고주와 직접 공모하는 경우이고, 두 번째는 (더 일반적인 시나리오로) 광고주가 클라이언트의 조작으로부터 자신을 보호해야 할 필요성 때문에 제한적인 협력을 제공하는 경우입니다. AdGraph를 포함한 목록 기반 접근법에서 광고 제공 시스템에 의한 성공적인 URL 조작은 거의 완전한 승리입니다. 광고에 ‘로컬’ 출처를 부여함으로써, 광고 콘텐츠를 체계적으로 차단하려는 거의 모든 시도를 회피하게 됩니다. 그렇다면 남은 서명은 무엇일까요? WebGraph는 대신 광고 시스템이 웹 트래커, iframe 간 통신, 웹 ‘리스너'(광고의 웹 메트릭 측면에서 의미 있는 활동을 위해 호스트 페이지의 실시간 상태를 지속적으로 폴링함)와 같은 다양한 반-난독화 수단을 통해 정보를 공유해야 할 필요성에 집중합니다. 이러한 활동에는 쿠키나 HTML5 기반 로컬 저장소에 변수를 저장하는 것이 포함됩니다. WebGraph는 Mozilla의 웹 개인정보 보호 측정(OpenWPM 프레임워크)을 사용하여 Firefox에서 이러한 활동을 추적합니다. 이는 JavaScript 계층에서의 모든 활동과 네트워크 계층에서의 모든 발신 네트워크 요청 및 그 응답을 캡처합니다. 이러한 추가적인 검토는 AdGraph가 이전에 제안한 그래프 네트워크에 새로운 ‘정보 흐름’ 간선을 도입하여, WebGraph가 로컬 활동을 기반으로 한 정보 공유 패턴을 명시적으로 기록하고 정량화할 수 있게 합니다. 이는 광고 제공 시스템 내에서 원격 측정이나 기타 종류의 내부 통신을 위한 출발지 및 목적지 URL과 관계없이 이루어집니다.
결과
연구진은 확장된 버전의 OpenWPM을 사용하여 Alexa 상위 100,000개 사이트에서 가져온 10,000개 웹사이트와 1k-100k 순위 사이의 무작위 샘플 9,000개 사이트를 체계적으로 크롤링했습니다. 그런 다음 결과를 AdGraph의 원래 설계를 본뜬 결정 트리 분류기에 전달하기 전에 그래프 표현을 저장했으며, 널리 사용되는 광고 필터 목록을 기준 진실로 사용했습니다. 이러한 방식으로 핵심 모델 훈련을 위한 데이터셋이 구축되었습니다. 이 시스템은 92.33%의 정확도로 AdGraph와 비슷한 결과를 달성했습니다. 그러나 새로운 시스템의 적대적 저항에 대한 복원력은 AdGraph의 거의 완전한 실패율에서 WebGraph 하에서 단 8%의 취약성으로 향상되었습니다.
향후 방향
이 논문은 광고 네트워크가 WebGraph 접근법에 직면해 탐지를 회피하려면 시스템을 상당히 재구성해야 할 것이며, 그러한 변화는 제3자 광고주와 그들의 광고가 게재되는 호스트 사이트 간의 현재 신중한 신뢰 관계에 대한 재검토를 필요로 할 것이라고 주장합니다. 또한 논문은 WebGraph가 Canvas 요소를 통한 브라우저 핑거프린팅과 같이 시스템이 현재 모니터링하지 않는 API를 사용하는 상태 비저장 추적 기술을 고려하지 않는다고 언급합니다. 연구진은 WebGraph가 향후 그러한 종류의 상호작용과 로컬 저장소 표지자를 설명하도록 확장될 수 있다고 제안합니다.













