Kyberturvallisuus

Konenäöinen oppimismenetelmä mainosten estämiseksi paikallisen selaimen käyttäytymisen perusteella

Published July 26, 2021

Updated April 28, 2026

Martin Anderson

Sveitsissä ja Yhdysvalloissa tehdyssä tutkimuksessa on kehitetty uusi konenäöinen lähestymistapa verkkosivujen mainosmateriaalin havaitsemiseen, joka perustuu siihen, miten mainosmateriaali vuorovaikuttaa selaimen kanssa, sen sijaan, että analysoisi sen sisältöä tai verkkokäyttäytymistä – kaksi lähestymistapaa, jotka ovat osoittautuneet tehottomiksi pitkällä aikavälillä CNAME-peittämisen (ks. alla) edessä.

Kutsuttu WebGraph:ksi, kehys käyttää verkko-pohjaista tekoälyä mainosten estoalueen havaitsemiseen keskittymällä sellaisiin olennaisiin toimintoihin verkkomainonnassa – mukaan lukien telemetrian yritykset ja paikallinen selaimen tallennus – että ainoa tehokas välttämisstrategia olisi olla harjoittamatta näitä toimintoja.

Vaikka aiemmat lähestymistavat ovat saavuttaneet hieman korkeammat havaintotarkkuudet kuin WebGraph, kaikki ne ovat alttiita välttämisstrategioille, kun taas WebGraph pystyy lähestymään 100 %:n eheytysastetta vastustavien vastausten edessä, mukaan lukien monimutkaisemmat hypoteettiset vastaukset, jotka voivat ilmestyä tämän uuden mainosten estoalueen edessä.

Tutkimus on johtanut kahden tutkijan Sveitsin liittokansallisesta teknillisen korkeakoulusta yhteistyössä tutkijoiden kanssa Kalifornian yliopistosta, Davisistä ja Iowan yliopistosta.

AdGraphin jälkeen

Tutkimus on kehitys 2020 tutkimushankkeesta Brave-selaimen kanssa nimeltä AdGraph, jossa oli mukana kaksi tutkijaa uudesta tutkimuksesta.

Vertailu AdGraphin ja WebGraphin välillä, jossa pisteviivat edustavat arkkitehtuurisia innovaatioita edellisessä lähestymistavassa. Lähde: https://arxiv.org/pdf/2107.11309.pdf

AdGraph perustuu (mainos)sisällön ominaisuuksiin, jotka on johdettu URL-osoitteiden analyysistä, avain mainosmateriaalin havaitsemiseen. Kuitenkin nämä ominaisuudet edustavat yhtä mahdollista epäonnistumisen kohtaa vihollisille, jotka pyrkivät havaitsemaan mainosten estoalueen läsnäolon ja kehittämään menetelmiä niiden välttämiseksi. Tämä riippuvuus sisällön ominaisuuksista tekee AdGraphin käytännössä mekanisoituna version manuaalisesti kohdennetuista suodatusluetteloiden perusteella, jaettavissa heikkouksia.

CNAME-peittäminen

Materiaali, joka on peräisin verkkosivun omasta alueesta, kuuluu “luotettavaan” kategoriaan, niin kauan kuin itse alue on luotettava. Korkean auktoriteetin verkkosivuilla on arvokas etu juosta mainoskampanjoita, jotka sisältävät materiaalia, joka näyttää olevan isäntäverkkosivun itsensä isännöimä, koska tällainen mainonta on immuuni suodatuspohjaisille mainosten estoalueille, ja jopa 2020 AdGraph-lähestymistavalle.

Kuitenkin mukautetut kampanjat ovat vaikeita neuvotella, kalliita toteuttaa, ja vastakkaisia verkkomainonnan mallin periaatteille, jotka on kehitetty viimeisen 25 vuoden aikana, jossa kolmannen osapuolen alusta lisää koodia suoraan isäntäverkkosivulle, yleensä “huutokauppaamalla” mainospaikkaa mikroshekkejä keywordin toivottavuuden ja muiden tekijöiden perusteella.

Koska lähes kaikki mainosten estoalueet perustuvat kolmannen osapuolen materiaaliin verkkosivuilla (ts. alueet, jotka ovat isännöity “vierailijoille” alueille), mainostajat ovat taistelleet takaisin CNAME-peittämistekniikoilla viimeisen viiden vuoden aikana. CNAME-peittäminen pettää seurantajärjestelmiä uskomaan, että isäntäverkkosivun aliverkkotunnus (ts. tieto.esimerkki.com sen sijaan, että esimerkki.com) on aito liite verkkosivulle, kun se tosiasiassa on välittäjämainonnan palvelumekanismi, joka on järjestetty kolmannen osapuolen mainostajien kanssa.

Maaliskuussa 2021 yksi tutkimus paljasti, että CNAME-peittämistapaukset lisääntyivät 22 %:lla vuosina 2018-2020, ja lähes 10 %:lla Tranco:n 10 000 parhaasta verkkosivusta käytti vähintään yhtä CNAME-pohjaista seurantaa lokakuussa 2020.

Luottamuksen poistaminen URL-osoitteista

CNAME-pettämistekniikat ovat manipulaatioita URL-osoitteissa, jotka osallistuvat mainonnan palveluprosessiin. Kaikki mainosten estoalueet, jotka luottavat URL-ketjuun, ovat alttiita manipuloinnille ja välttämiselle. Sen vuoksi WebGraph muuttaa satunnaisesti toimittuja URL-osoitteita prosessissa (mukaan lukien kyselymerkkijonot, parametreja ja parametrinimet), etsimällä käyttöön liittyviä kuvioita sen sijaan, että tiettyjä kiellettyjä tai hyväksyttyjä URL-osoitteita.

Järjestelmällä on kaksi yleistä konfiguraatiota mainonnan arkkitehtuurissa: yksi, jossa isäntä on suoraan yhteistyössä mainostajan kanssa; ja toinen (yleisempi) skenaario, jossa mainostaja tarjoaa rajoitetun yhteistyön tarpeen mukaan suojelemiseksi manipuloinnilta asiakkaidensa toimesta.

Luettelopohjaisissa lähestymistavoissa, mukaan lukien AdGraph, onnistunut URL-manipulaatio mainonnan palvelujärjestelmässä on lähes täydellinen voitto, määrittelemällä “paikallisen” alkuperän mainokselle ja siten välttämällä lähes kaikki systemaattiset yritykset estää mainosmateriaalia.

Mitä on jäljellä, signaturen suhteen? WebGraph keskittyy sen sijaan mainonnan järjestelmien tarpeeseen jakaa tietoa eri puolipidettyjen tavoitteiden kautta, kuten web-seurantaa, viestintää iframejen ja web-kuuntelijoiden välillä, jotka ovat jatkuvasti kysymässä isäntäverkkosivun tilaa toiminnasta, joka on merkityksellistä verkkomittauksissa mainokselle. Tällainen toiminta sisältää muuttujien tallentamisen evästeisiin tai HTML5-pohjaisiin paikallisiin tallennusmuotoihin.

WebGraph käyttää Mozillan Web Privacy Measurement (OpenWPM-kehystä) seuraamaan tällaista toimintaa Firefoxissa. Se kaappaa kaiken toiminnan JavaScript-tasolla ja kaikki lähtevät verkkopyynnöt ja niiden vastaukset verkkotason tasolla.

Tämä lisätarkastelu tuo uudet “tiedonvirta”-reunat verkkoon, jota AdGraph on aiemmin ehdottanut, sallien WebGraphille eksplisiittisesti merkitä ja määritellä tiedonjakokuvioita paikallisen toiminnan perusteella, ja riippumatta alkuperä- ja määränpää-URL-osoitteista telemetria- tai muiden internecine-viestintätapoja mainonnan järjestelmissä.

Tulokset

Tutkijat käyttivät laajennettua versiota OpenWPM:stä järjestelmällisesti käymään läpi 10 000 verkkosivua, jotka on otettu Alexa:n 100 000 parhaan verkkosivun joukosta, ja satunnainen otos 9 000 verkkosivua, jotka on sijoitettu 1 000-100 000 sijalle, ja tallentamaan niiden verkkoesitykset ennen kuin tulokset siirrettiin päätöspuuhun, joka on mallinnettu AdGraphin alkuperäisen suunnitelman mukaan, ja käyttäen suosittuja mainossuodatusluetteloita perustotuuksina. Tällä tavoin kokoelma rakennettiin ydinmallin koulutukseen.

Järjestelmä saavutti vertailukelpoiset tulokset AdGraphiin, 92,33 %:n tarkin. Kuitenkin uuden järjestelmän kestävyys vastustavalle resistenssille nousee lähes täydellisestä epäonnistumisesta AdGraphissa 8 %:iin WebGraphissa.

Tulevaisuuden suunta

Tutkimus väittää, että mainosverkot tarvitsisivat merkittävästi uudelleenarkkitehtuuria järjestelmiinsä voidakseen välttää havaitsemisen WebGraph-lähestymistavassa, ja ehdottaa, että tällaiset muutokset edellyttäisivät katselua nykyisestä varovaisesta luottamussuhteesta kolmannen osapuolen mainostajien ja niiden isäntäverkkosivujen välillä, joilla heidän mainoksensa näkyvät.

Tutkimus huomauttaa myös, että WebGraph ei ottaa huomioon tilattomia seurantatekniikoita, kuten selaimen sormenjäljen (Canvas-elementin kautta), jotka käyttävät API:ja, joita järjestelmä ei tällä hetkellä valvo. Tutkijat ehdottavat, että WebGraph voidaan laajentaa tulevaisuudessa ottaen huomioon myös nämä tyypit interaktioita ja paikallisia tallennusmerkintöjä.