Cybersecurity

Метод за машинско учење за блокирање реклами врз основа на однесувањето на локалниот прелистувач

Објавено

пред 3 години

Јули 26, 2021

Истражувачите од Швајцарија и САД смислија нов пристап за машинско учење за откривање на рекламен материјал на веб-локација, кој се заснова на начинот на кој тој материјал комуницира со прелистувачот, наместо преку анализа на неговата содржина или однесување на мрежата - два пристапа кои се покажаа неефикасни во долгорочно во лицето на CNAME наметка (види подолу).

Наречен Веб График, рамката користи a графикон-пристап за блокирање реклами заснован на вештачка интелигенција за откривање промотивна содржина со концентрирање на такви суштински активности на мрежното рекламирање - вклучувајќи обиди за телеметрија и локално складирање на прелистувачот - што единствената ефикасна техника за затајување би била да не се спроведуваат овие активности.

Иако претходните пристапи постигнаа малку повисоки стапки на откривање од WebGraph, сите од нив се склони кон заобиколувачки техники, додека WebGraph е во состојба да пристапи до 100% интегритет во однос на противничките одговори, вклучително и пософистицирани хипотезирани одговори кои може да се појават во услови на ова нов метод за блокирање реклами.

Трудот го водат двајца истражувачи од Швајцарскиот федерален институт за технологија, во соработка со истражувачите од Универзитетот во Калифорнија, Дејвис и Универзитетот во Ајова.

Надвор од AdGraph

Работата е развој од истражувачка иницијатива од 2020 година со Brave прелистувач наречен AdGraph, на кој беа претставени двајца од истражувачите од новиот труд.

Споредба на AdGraph наспроти WebGraph, со испрекинати линии што ги претставуваат архитектонските иновации на претходниот пристап. Извор: https://arxiv.org/pdf/2107.11309.pdf

AdGraph се потпира на (рекламна) содржина карактеристики, добиени од анализа на URL-адреси, како клуч за откривање на комерцијален материјал. Сепак, овие карактеристики претставуваат единствена потенцијална точка на неуспех за противниците кои сакаат да го откријат присуството на системи за откривање реклами и да формулираат методи за нивно отстранување. Ова потпирање на содржината својства го прави AdGraph суштински механизирана верзија на пристапи засновани на листи за филтрирање рачно подредени, споделувајќи ги нивните слабости.

CNAME покритие

Материјалот што потекнува од сопствениот домен на веб-локација спаѓа во категоријата „доверлив“, доколку на самиот домен му се верува. За веб-локација со висок авторитет, има драгоцена премија во водењето рекламни кампањи кои содржат материјал што го содржи се појавува да биде хостирана од самата локација на авторитет, бидејќи таквото рекламирање е имуно на списоците за блокирање реклами базирани на филтри, па дури и на пристапот AdGraph за 2020 година.

Сепак, приспособените кампањи се тешки за преговарање, скапи за имплементација и се спротивни на основните принципи на моделот за мрежно рекламирање развиен во последните 25 години, каде платформата од трета страна го вметнува кодот директно во локацијата на домаќинот, обично „аукција“ слотот за рекламирање во микросекунди врз основа на посакуваноста на клучниот збор и разни други фактори.

Бидејќи речиси сите системи за блокирање реклами клучат за материјали од трета страна на веб-страниците (т.е. елементи што се хостирани на „вонземски“ домени), огласувачите возвраќаат со Техники за прикривање на CNAME во текот на последните пет години. Прикривањето на CNAME ги мами трагачите да веруваат дека поддоменот на веб-локацијата-домаќин (т.е. information.example.com наместо example.com) е вистински додаток на страницата, кога е факт дека е механизам за опслужување реклами со прокси уреден со рекламирање од трета страна даватели на услуги.

Во март 2021 година, една студија откри дека инцидентите со прикривање на CNAME се зголемија за 22% помеѓу 2018 и 2020 година, при што скоро 10% од топ 10,000 веб-локации на Tranco користат минимум еден тракер базиран на CNAME до октомври 2020 година.

Попуст на доверба во URL-адреси

Техниките за измама CNAME вклучуваат манипулација со URL-адреси вклучени во процесот на сервирање реклами. Секој систем за блокирање реклами што има доверба во синџирот на URL ќе биде предмет на манипулација и затајување. Затоа WebGraph по случаен избор ги менува доставените URL-адреси во процесот (вклучувајќи низи за прашања, број на параметри и имиња на параметри), барајќи модели на употреба наместо специфични забранети или прифатени URL-адреси.

Системот треба да земе предвид две вообичаени конфигурации во архитектурата за опслужување реклами: едната, каде што домаќинот директно договара со огласувачот; и второ (почесто) сценарио каде што огласувачот обезбедува ограничена соработка поради потребата да се заштити од манипулации од страна на неговите клиенти.

Во пристапите засновани на список, вклучувајќи го и AdGraph, успешната манипулација со URL од страна на системот за опслужување реклами е речиси целосна победа, припишувајќи „локално“ потекло на рекламата и затоа избегнувајќи ги речиси сите обиди за систематско блокирање на рекламната содржина.

Што остана, по пат на потпис? Наместо тоа, WebGraph се фокусира на потребата на системите за рекламирање да споделуваат информации со различни полу-заматени средства, како што се веб-тракери, комуникации помеѓу iframes и веб-слушатели, кои постојано ја испитуваат состојбата во живо на страницата домаќин за активност што е значајна во смисла. на веб-метрика за рекламата. Таквата активност вклучува складирање на променливи во колачиња или локално складирање базирано на HTML5.

WebGraph користи мерење на веб-приватноста на Mozilla (OpenWPM рамка) за следење на таквата активност во Firefox. Ја доловува целата активност на JavaScript слојот и сите појдовни мрежни барања и нивните одговори на мрежниот слој.

Овој дополнителен преглед воведува нови рабови на „протокот на информации“ во графичката мрежа претходно предложена од AdGraph, дозволувајќи му на WebGraph експлицитно да ги снима и квантифицира шемите за споделување информации врз основа на локалната активност, и без оглед на URL-то на потеклото и одредиштето за телеметрија или други видови интернекини комуникации во системи за опслужување реклами.

Резултати

Истражувачите користеа проширена верзија на OpenWPM за систематски да ползат 10,000 веб-локации земени од топ 100,000 сајтови на Alexa и случаен примерок од 9,000 локации рангирани помеѓу 1k-100k, складирајќи ги нивните претстави на графикони пред да ги пренесат резултатите на класификаторот на дрвото на одлуки, моделирани според моделот на AdGraph класификаторот на дрвото. оригинален дизајн и користење на популарни листи со филтри за реклами како основна вистина. На овој начин, конструирана е база на податоци за обука на основниот модел.

Системот постигна споредливи резултати со AdGraph, со 92.33% точност. Сепак, отпорноста на новиот систем на противнички отпор се зголемува од речиси целосна стапка на неуспех за AdGraph на само 8% подложност на WebGraph.

Идните насоки

Во трудот се тврди дека рекламните мрежи ќе треба особено да ги реархитектурираат нивните системи за да избегнат откривање во однос на пристапот WebGraph, и сугерира дека таквите промени ќе бараат преглед на моментално внимателниот однос на доверба помеѓу огласувачите од трети страни и хостираат сајтови на кои се појавуваат нивните реклами.

Весникот, исто така, забележува дека WebGraph не ги зема предвид техниките за следење без државјанство, како што е отпечатокот од прелистувачот (преку елементот Canvas), кои користат API-и кои системот моментално не ги следи. Истражувачите сугерираат дека WebGraph може да се прошири во иднина за да ги земе предвид и тие видови на интеракции и означувачи за локално складирање.

Поврзани теми:рекламирање истражување

Следно

Основи за управување со ранливости

Не ја пропуштајте

Увид во пазарот на заштитен ѕид на веб-апликации

Мартин Андерсон

Писател за машинско учење, вештачка интелигенција и големи податоци.
Лична страница: martinanderson.ai
Контакт: [заштитена по е-пошта]
Твитер: @manders_ai

Обединете се.AI

Метод за машинско учење за блокирање реклами врз основа на однесувањето на локалниот прелистувач

Cybersecurity